llama.cpp
e76d630d - llama : grouped-query attention + LLaMAv2 70B support (#2276)

Commit

2 years ago

llama : grouped-query attention + LLaMAv2 70B support (#2276) * CUDA: GQA implementation * llama : support for GQA and LLaMAv2 70B ggml-ci * py : fix hparams parsing (if-else blocks) ggml-ci * py : oh boy .. ggml-ci * help : fix gqa value for 70B ggml-ci --------- Co-authored-by: JohannesGaessler <johannesg@5d6.de>

References

#2276 - llama : grouped-query attention + LLaMAv2 70B support

Author

ggerganov

Parents

1d0824b2

llama.cpp e76d630d - llama : grouped-query attention + LLaMAv2 70B support (#2276)

llama.cpp
e76d630d - llama : grouped-query attention + LLaMAv2 70B support (#2276)