llama.cpp
ggml webgpu: initial flashattention implementation
#18610

Merged

ggml webgpu: initial flashattention implementation #18610

reeselevine merged 9 commits into ggml-org:master from reeselevine:master

FlashAttention (#13)

36b5e5cc

Update to account for default kv cache padding

b6c86244

github-actions added ggml

formatting shader

e5bf2d5f

reeselevine force pushed from ab90db0f to e5bf2d5f 34 days ago

reeselevine requested a review from

ggerganov 33 days ago

reeselevine requested a review from

jeffbolznv 33 days ago

Add workflow for ggml-ci webgpu

e01f7850

reeselevine requested a review from

CISC 32 days ago

Try passing absolute path to dawn in ggml-ci

e725774e

github-actions added devops

Avoid error on device destruction, add todos for proper cleanup

1eb1588c

Fix unused warning

86c0da6c

Forgot one parameter unused

286596a8

Move some flashattn computation to f32 for correctness

d8d9a1e4

ggerganov approved these changes on 2026-01-08

CISC approved these changes on 2026-01-08

reeselevine merged 15bff84b into master 31 days ago

Reviewers

CISC

ggerganov

jeffbolznv

Assignees

No one assigned

Labels

devops ggml

Milestone

No milestone