vllm-project/vllm

Pull Requests Commits

Revert "[TPU][Bugfix] fix OOM issue in CI test (#21550)"

yaochengji committed 268 days ago

Verified c0a8db46

[TPU][Bugfix] fix OOM issue in CI test (#21550)

yaochengji committed 268 days ago

Verified 40d86ee4

[Misc] Removed undefined cmake variables MOE_PERMUTE_ARCHS (#21262)

Yang Chen committed 268 days ago

Verified 85d051f0

[CI/Build] fix cpu_extension for apple silicon (#21195)

ignaciosica committed 268 days ago

Verified 5140f54b

[Misc][Tools] make max-model-len a parameter in auto_tune script (#21321)

yaochengji committed 268 days ago

Verified 947edd09

[Model] Fix a check for None but the return value was empty list in Gemma3 MM vision_embeddings (#21479)

hfan committed 268 days ago

Verified fde60ee7

[Model] Support tensor parallel for timm ViT in Deepseek_vl2 (#21494)

wzqd committed 268 days ago

Verified b38bc652

[Bugfix] fix modelscope snapshot_download serialization (#21536)

andyxning committed 268 days ago

Verified adaf2c6d

[CI] Update CODEOWNERS for CPU and Intel GPU (#21582)

bigPYJ1151 committed 268 days ago

Verified 42343f1f

Integrate TensorSchema with shape validation for Phi3VImagePixelInputs (#21232)

bbeckca committed 268 days ago

Verified 965bc71b

[Docs] Add `requirements/common.txt` to run unit tests (#21572)

zhouwfang committed 268 days ago

Verified 807a328b

[TPU][Test] Temporarily suspend this MoE model in test_basic.py. (#21560)

QiliangCui committed 268 days ago

Verified e0be2c4d

[DP] Support api-server-count > 0 in hybrid DP LB mode (#21510)

njhill committed 268 days ago

Verified 9c8b2c2a

[Bugfix] DeepGemm utils : Fix hardcoded type-cast (#21517)

varun-sundar-rabindranath committed 268 days ago

Verified 2212cd6c

[Kernel] adding fused_moe configs for upcoming granite4 (#21332)

bringlein committed 268 days ago

Verified ce3a9b13

Fix GLM-4 PP Missing Layer When using with PP. (#21531)

zRzRzRzRzRzRzR committed 268 days ago

Verified 2ce90e5b

[Bug] Fix DeepGemm Init Error (#21554)

yewentao256 committed 268 days ago

Verified 633f6e80

[Docs] Fix `site_url` for RunLLM (#21564)

hmellor committed 268 days ago

Verified b57296bb

[Frontend] `run-batch` supports V1 (#21541)

DarkLight1337 committed 268 days ago

Verified 34ddcf9f

[MoE] More balanced expert sharding (#21497)

WoosukKwon committed 268 days ago

Verified fe56180c

[TPU][TEST] HF_HUB_DISABLE_XET=1 the test 3. (#21539)

QiliangCui committed 268 days ago

Verified 07d80d7b

update flashinfer to v0.2.9rc1 (#21485)

weireweire committed 268 days ago

Verified 2dd72d23

[Docs] Add Expert Parallelism Initial Documentation (#21373)

simon-mo committed 268 days ago

Verified a6c7fb8c

[Docs][minor] Fix broken gh-file link in distributed serving docs (#21543)

crypdick committed 269 days ago

Verified a7272c23

[P/D] Support CPU Transfer in NixlConnector (#18293)

juncgu committed 269 days ago

Verified 60662849

[P/D] Move FakeNixlWrapper to test dir (#21328)

ruisearch42 committed 269 days ago

Verified 1e9ea8e6

[XPU] Conditionally import CUDA-specific passes to avoid import errors on xpu platform (#21036)

chaojun-zhang committed 269 days ago

Verified d9f9a3fd

Update flashinfer CUTLASS MoE Kernel (#21408)

wenscarl committed 269 days ago

Verified 1b25f1fe

[Bug] Fix Compressed Tensor NVFP4 `cutlass_fp4_group_mm` illegal memory access (#21465)

yewentao256 committed 269 days ago

Verified e8cb0d04

[Docs] Rewrite Distributed Inference and Serving guide (#20593)

crypdick committed 269 days ago

Verified 68417411

Older