llama.cpp
vulkan: add specific MMV kernels for IQ2 and IQ3 quants + optimizations
#11595

Merged

vulkan: add specific MMV kernels for IQ2 and IQ3 quants + optimizations #11595

0cc4m merged 5 commits into ggml-org:master from remyoudompheng:vulkan-iq-mmv

github-actions added Vulkan

github-actions added devops

github-actions added ggml

vulkan: implement specialized MMV kernels for IQ2 quantizations

b80033ef

vulkan: add MMV kernels for IQ3 quants

e3228c74

vulkan: Increase MMV batch size and unroll IQ LUT setup

c263f8f3

vulkan: fix init_iq_shmem for WG sizes larger than tables

8608322f

remyoudompheng force pushed to 8608322f 1 year ago

remyoudompheng marked this pull request as ready for review 1 year ago

jeffbolznv commented on 2025-02-16

vulkan: common batch size for all I-quants

cfea4ddb

jeffbolznv approved these changes on 2025-02-18

0cc4m approved these changes on 2025-02-28

0cc4m merged 438a8392 into master 1 year ago

Reviewers

0cc4m

jeffbolznv

netrunnereve

Assignees

No one assigned

Labels

Vulkan devops ggml

Milestone

No milestone