llama.cpp
vulkan: optimize flash attention split_k_reduce
#14554

Merged

vulkan: optimize flash attention split_k_reduce #14554

0cc4m merged 2 commits into ggml-org:master from jeffbolznv:fa_split_k_opts

vulkan: allow FA split_k with smaller KV values

314e0e61

vulkan: spread split_k_reduce work across more threads

8f24cd9a

jeffbolznv requested a review from

0cc4m 193 days ago

github-actions added Vulkan

github-actions added ggml

0cc4m approved these changes on 2025-07-08

0cc4m merged 6efcd659 into master 191 days ago

Reviewers

0cc4m

Assignees

No one assigned

Labels

Vulkan ggml

Milestone

No milestone