llama.cpp
8ad92dc1 - ggml : switch to padded F16 mask for ggml_soft_max, ggml_flash_attn_ext

Commit

1 year ago

ggml : switch to padded F16 mask for ggml_soft_max, ggml_flash_attn_ext

References

#5021 - ggml : add Flash Attention

Author

ggerganov

ggerganov

Committer

ggerganov

ggerganov

Parents

Files7

ggml-cuda.cu
ggml-metal.m
ggml-metal.metal
ggml.c
ggml.h
llama.cpp
tests
- test-backend-ops.cpp