llama.cpp
12a81af4 - CUDA: broadcasting for FlashAttention mask (#14500)

Commit

125 days ago

CUDA: broadcasting for FlashAttention mask (#14500)

References

#14435 - ggml : support broadcast for ggml_soft_max_ext and ggml_flash_attn_ext

Author

JohannesGaessler

JohannesGaessler

Committer

ggerganov

ggerganov

Parents

Loading