whisper.cpp
80fa5762 - vulkan: implement initial support for IQ2 and IQ3 quantizations (llama/11360)

Commit

1 year ago

vulkan: implement initial support for IQ2 and IQ3 quantizations (llama/11360) * vulkan: initial support for IQ3_S * vulkan: initial support for IQ3_XXS * vulkan: initial support for IQ2_XXS * vulkan: initial support for IQ2_XS * vulkan: optimize Q3_K by removing branches * vulkan: implement dequantize variants for coopmat2 * vulkan: initial support for IQ2_S * vulkan: vertically realign code * port failing dequant callbacks from mul_mm * Fix array length mismatches * vulkan: avoid using workgroup size before it is referenced * tests: increase timeout for Vulkan llvmpipe backend --------- Co-authored-by: Jeff Bolz <jbolz@nvidia.com>

References

#2779 - sync : ggml

Author

remyoudompheng

Committer

ggerganov

Parents

75e7d058

whisper.cpp 80fa5762 - vulkan: implement initial support for IQ2 and IQ3 quantizations (llama/11360)

whisper.cpp
80fa5762 - vulkan: implement initial support for IQ2 and IQ3 quantizations (llama/11360)