llama.cpp
vulkan: optimize rms_norm, and allow the work to spread across multiple SMs
#15281

Merged

vulkan: optimize rms_norm, and allow the work to spread across multiple SMs #15281

jeffbolznv merged 6 commits into ggml-org:master from jeffbolznv:rms_norm_atomic_add

jeffbolznv requested a review from

0cc4m 155 days ago

github-actions added testing

github-actions added Vulkan

github-actions added ggml

jeffbolznv marked this pull request as draft 155 days ago

jeffbolznv commented on 2025-08-13

jeffbolznv force pushed 154 days ago

jeffbolznv force pushed 151 days ago

jeffbolznv marked this pull request as ready for review 151 days ago

0cc4m commented on 2025-08-17

jeffbolznv force pushed 146 days ago

jeffbolznv requested a review from

0cc4m 146 days ago

0cc4m approved these changes on 2025-08-23

vulkan: optimize rms_norm, and allow the work to spread across multip…

b26cf611

Change add+rms_norm optimization to write out an array of partial sums

5643b4a3

complete rebase against fused adds - multi_add shader can also comput…

7856a7a8

fix validation errors

a675d0c3

disable add_rms_fusion for Intel due to possible driver bug

8d382bcb

resolve against #15489, sync after clearing partial sums

e97e226a

jeffbolznv force pushed to e97e226a 144 days ago

jeffbolznv merged 611f419c into master 144 days ago

Reviewers

0cc4m

ggerganov

Assignees

No one assigned

Labels

testing Vulkan ggml

Milestone

No milestone