PR #22298 CUDA: reduce MMQ stream-k overhead

CUDA: reduce MMQ stream-k overhead #22298

JohannesGaessler merged 2 commits into ggml-org:master from JohannesGaessler:cuda-mmq-fastdiv-8

CUDA: reduce MMQ stream-k overhead

5f1074e0

JohannesGaessler requested a review 25 days ago

IMbackK approved these changes on 2026-04-23

github-actions added Nvidia GPU

github-actions added ggml

ORippler commented on 2026-04-24

use 32 bit integers for kbc

07376a7e

am17an approved these changes on 2026-04-25

JohannesGaessler merged 9725a313 into master 23 days ago

Reviewers

am17an

IMbackK

ORippler

Assignees

No one assigned

Labels

Nvidia GPU ggml

Milestone

No milestone