llama.cpp
d798a17c - cuda : add TODO for calling cublas from kernel + using mem pool

Commit

2 years ago

cuda : add TODO for calling cublas from kernel + using mem pool

References

cuda-batched-gemm

#3749 - cuda : add batched cuBLAS GEMM for faster attention

Author

ggerganov

ggerganov

Parents

Loading