llama.cpp
3d297c1a - cuda : add cublasGemmStridedBatchedEx for non-broadcasted cases

Commit

2 years ago

cuda : add cublasGemmStridedBatchedEx for non-broadcasted cases

References

#3749 - cuda : add batched cuBLAS GEMM for faster attention

Author

ggerganov

ggerganov

Committer

ggerganov

ggerganov

Parents

Loading