llama : adapt to F16 KQ_pos - SemanticDiff

Commit

1 year ago

llama : adapt to F16 KQ_pos

References

gg/flash-attn-sync

#5021 - ggml : add Flash Attention

Author

ggerganov

ggerganov

Committer

ggerganov

ggerganov

Parents

Loading