llama.cpp
11f3ca06 - CUDA: Quantized matrix matrix multiplication (#2160)

Commit

2 years ago

CUDA: Quantized matrix matrix multiplication (#2160) * mmq implementation for non k-quants * q6_K * q2_K * q3_k * q4_K * vdr * q5_K * faster q8_1 loading * loop unrolling * add __restrict__ * q2_K sc_high * GGML_CUDA_MMQ_Y * Updated Makefile * Update Makefile * DMMV_F16 -> F16 * Updated README, CMakeLists * Fix CMakeLists.txt * Fix CMakeLists.txt * Fix multi GPU out-of-bounds

References

#2160 - CUDA: Quantized matrix matrix multiplication

Author

JohannesGaessler

Parents

9baf9ef3

llama.cpp 11f3ca06 - CUDA: Quantized matrix matrix multiplication (#2160)

llama.cpp
11f3ca06 - CUDA: Quantized matrix matrix multiplication (#2160)