llama.cpp
ggml: aarch64: implement mmla kernels for q8_0_q8_0, q4_0_q8_0 and q4_1_q8_1 quantized gemm
#4966

Merged

ggml: aarch64: implement mmla kernels for q8_0_q8_0, q4_0_q8_0 and q4_1_q8_1 quantized gemm #4966

ggerganov merged 5 commits into ggml-org:master from snadampal:smmla_aarch64

snadampal force pushed 2 years ago

snadampal changed the title ~~ggml: aarch64: implement mmla kernel for q8_0_q8_0 quantized gemm~~ ggml: aarch64: implement mmla kernels for q8_0_q8_0 and q4_0_q8_0 quantized gemm 2 years ago

AGSaidi commented on 2024-01-16

snadampal force pushed 2 years ago

snadampal changed the title ~~ggml: aarch64: implement mmla kernels for q8_0_q8_0 and q4_0_q8_0 quantized gemm~~ ggml: aarch64: implement mmla kernels for q8_0_q8_0, q4_0_q8_0 and q4_1_q8_1 quantized gemm 2 years ago

cebtenzzre commented on 2024-01-16

snadampal force pushed 2 years ago

ggerganov added performance

snadampal force pushed 2 years ago

cebtenzzre commented on 2024-01-23

snadampal force pushed 2 years ago

snadampal force pushed 2 years ago

ggerganov added high priority

ggerganov requested a review from

ggerganov 2 years ago

ggerganov commented on 2024-01-27

snadampal force pushed 2 years ago

ggerganov commented on 2024-02-02

snadampal force pushed 2 years ago

ggerganov added need feedback

ggerganov commented on 2024-02-06

ggml: aarch64: implement smmla kernel for q8_0_q8_0 quantized gemm

52489546

ggml: aarch64: implement smmla kernel for q4_0_q8_0 quantized gemm

ba668572

ggml: aarch64: implement smmla kernel for q4_1_q8_1 quantized gemm

9cd5b8de

ggml: update unit tests for the new vec_dot interface

bca726f0

llama.cpp: add MATMUL_INT8 capability to system_info

d8f132d1

snadampal force pushed to d8f132d1 2 years ago

ggerganov approved these changes on 2024-02-11

ggerganov merged a07d0fee into master 2 years ago

Reviewers

ggerganov

cebtenzzre

wtarreau

AGSaidi

Assignees

No one assigned

Labels

performance high priority need feedback

Milestone

No milestone

llama.cpp ggml: aarch64: implement mmla kernels for q8_0_q8_0, q4_0_q8_0 and q4_1_q8_1 quantized gemm #4966 Merged

ggml: aarch64: implement mmla kernels for q8_0_q8_0, q4_0_q8_0 and q4_1_q8_1 quantized gemm #4966

llama.cpp
ggml: aarch64: implement mmla kernels for q8_0_q8_0, q4_0_q8_0 and q4_1_q8_1 quantized gemm
#4966

Merged