llama.cpp
73e2ed3c - CUDA: use async data loading for FlashAttention (#11894)

Commit

1 year ago

CUDA: use async data loading for FlashAttention (#11894) * CUDA: use async data loading for FlashAttention --------- Co-authored-by: Diego Devesa <slarengh@gmail.com>

References

#11894 - CUDA: use async data loading for FlashAttention

Author

JohannesGaessler

Parents

f7b1116a

llama.cpp 73e2ed3c - CUDA: use async data loading for FlashAttention (#11894)

llama.cpp
73e2ed3c - CUDA: use async data loading for FlashAttention (#11894)