llama.cpp
27c34c01 - cuda : reduce mallocs in cublasGemmBatchedEx branch

Commit

2 years ago

cuda : reduce mallocs in cublasGemmBatchedEx branch

References

#3749 - cuda : add batched cuBLAS GEMM for faster attention

Author

ggerganov

ggerganov

Committer

ggerganov

ggerganov

Parents

Loading