whisper.cpp
b17ba281 - CUDA: faster q2_K, q3_K MMQ + int8 tensor cores (llama/7921)

Commit

1 year ago

CUDA: faster q2_K, q3_K MMQ + int8 tensor cores (llama/7921) * CUDA: faster q2_K, q3_K MMQ + int8 tensor cores * try CI fix * try CI fix * try CI fix * fix data race * rever q2_K precision related changes

References

#2237 - sync : ggml

Author

JohannesGaessler

Committer

ggerganov

Parents

7a489af2

whisper.cpp b17ba281 - CUDA: faster q2_K, q3_K MMQ + int8 tensor cores (llama/7921)

whisper.cpp
b17ba281 - CUDA: faster q2_K, q3_K MMQ + int8 tensor cores (llama/7921)