llama.cpp
fad56936 - metal : add rope_f16 kernel + optimize cpy kernels

Commit

2 years ago

metal : add rope_f16 kernel + optimize cpy kernels

References

#3234 - llama : store non-RoPEd K cache

#3228 - llama : custom attention mask + parallel decoding + no context swaps

Author

ggerganov

ggerganov

Committer

ggerganov

ggerganov

Parents

Loading