vllm
e59ca942 - Add option to use DeepGemm contiguous grouped gemm kernel for fused MoE operations. (#13932)

Commit

102 days ago

Add option to use DeepGemm contiguous grouped gemm kernel for fused MoE operations. (#13932) Signed-off-by: Bill Nell <bnell@redhat.com>

References

#13932 - Add option to use DeepGemm contiguous grouped gemm kernel for fused MoE operations.

Author

bnellnm

bnellnm

Parents

Files6

benchmarks/kernels
- benchmark_moe.py
tests/kernels
- test_block_fp8.py
vllm
- _custom_ops.py
- envs.py
- model_executor/layers
  - fused_moe
    - fused_moe.py
  - quantization
    - fp8.py