llama.cpp
2f9cf974 - Some more Q4_K and Q5_K speedup on CUDA (#2346)

Commit

2 years ago

Some more Q4_K and Q5_K speedup on CUDA (#2346) * Faster Q5_K on CUDA * Small Q5_K improvement on older GPUs * Spped up Q4_K on CUDA GTX1660: 29.5 ms/t -> 25.6 ms/t RTX4080: 8.40 ms/t -> 8.25 ms/t * Spped up Q4_K on CUDA GTX1660: 36.7 ms/t -> 35.6 ms/t RTX4080: 9.8 ms/t -> 9.5 ms/t * Address PR comments * Add some comments to satisfy PR reviewer --------- Co-authored-by: Iwan Kawrakow <iwan.kawrakow@gmail.com>

References

#2346 - Some more Q4_K and Q5_K speedup on CUDA

Author

ikawrakow

Parents

4f06592c

llama.cpp 2f9cf974 - Some more Q4_K and Q5_K speedup on CUDA (#2346)

llama.cpp
2f9cf974 - Some more Q4_K and Q5_K speedup on CUDA (#2346)