openvino
b03947e4 - [GPU] qwen3.5/qwen3-next to fuse shared expert into sparse experts computation (#34816)

Commit

59 days ago

[GPU] qwen3.5/qwen3-next to fuse shared expert into sparse experts computation (#34816) ### Details: - Fuse shared expert computation into sparse experts - Optimize moe total kernel performance if shared expert involved - Optimize host overhead if has shared expert - Add test cases - Verified models: - [x] gtp_oss(OV_FP16-4BIT_DEFAULT) - [x] qwen3_30b_a3b(OV_FP16-4BIT_DEFAULT) - [x] LFM2-24B-A2B-Preview-TransformersV4-int4 - [x] qwen3_next(OV_FP16-4BIT_DEFAULT) ### Tickets: - *ticket-id* ### AI Assistance: - *AI assistance used: no / yes* - *If yes, summarize how AI was used and what human validation was performed (build/tests/manual checks).*

References

#34816 - [GPU] qwen3.5/qwen3-next to fuse shared expert into sparse experts computation

Author

riverlijunjie

Parents

90aaad98

openvino b03947e4 - [GPU] qwen3.5/qwen3-next to fuse shared expert into sparse experts computation (#34816)

openvino
b03947e4 - [GPU] qwen3.5/qwen3-next to fuse shared expert into sparse experts computation (#34816)