vllm
dc8df110 - add warning when FP8 KV cache misses prefill query quantization (#39752)

Commit

99 days ago

add warning when FP8 KV cache misses prefill query quantization (#39752) Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Albert Cheng (Engrg-Hardware 1) <albecheng@login-lyris02.lyris.clusters.nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>

References

#39752 - add warning when FP8 KV cache misses prefill query quantization

Author

qiching

Parents

be0c855e

vllm dc8df110 - add warning when FP8 KV cache misses prefill query quantization (#39752)

vllm
dc8df110 - add warning when FP8 KV cache misses prefill query quantization (#39752)