llama.cpp
CUDA: refactor topk-moe to enable more models (GLM 4.7, Nemotron etc.)
#19126

Merged

Commits

CUDA: refactor topk-moe to enable more models (GLM, Nemotron etc.)

am17an committed 66 days ago
template bias

am17an committed 66 days ago
review: formatting

am17an committed 65 days ago

Loading