Commits vllm-project/vllm

Robert Shaw committed 110 days ago

71a4a5b8

[CI][AMD][BugFix] Update wvSplitK (and other skinny_gemm wrappers) to ensure tensors passed will be made contiguous for the kernel (#32831)

rasmith committed 110 days ago

Verified 6cc6d92b

[Bug] Fix benchmark script `moe_permute_unpermute` (#32949)

yewentao256 committed 110 days ago

Verified dfab5f37

fix: Add glm4_moe_lite to MLA detection (#32614)

marksverdhei committed 110 days ago

Verified 586a57ad

[cudagraphs] Refactor cudagraph capture loop (#32946)

LucasWilkinson committed 110 days ago

Verified 3a414595

[Model Runner V2] Add KV Connector support (#32742)

njhill committed 110 days ago

Verified 8518b304

[Bugfix][CI] Fix pre-commit (#32956)

MatthewBonanni committed 110 days ago

Verified 2d6b5371

[CI][torch nightlies] Use main Dockerfile with flags for nightly torch tests (#30443)

orionr committed 110 days ago

Verified 68b0a6c1

[V1][Hybrid] Mamba Prefix Caching with align mode (#30877)

peakcrosser7 committed 110 days ago

Verified 5206e5e2

[Model] Enable LoRA support for internvl2 (#32397)

MatteoFari committed 110 days ago

Verified fec9da0a

[torch.compile][CI] Add back attn fusion on hopper/ada (#32940)

ProExpertProg committed 110 days ago

Verified bbbd696a

[Frontend] add logprob, compression_rate to 'verbose_json' features (#31059)

sangbumlikeagod committed 110 days ago

Verified 9b77bb79

[Hardware][AMD][CI][Bugfix] Fix Kernels Attention Cache test (#32904)

mawong-amd committed 110 days ago

Verified 305e53ad

[ROCm][PD] Remove unused moriio connector proxy code (#32939)

markmc committed 111 days ago

Verified 1cb4341f

[Bugfix] Fix FP8 MoE EP Weight Loading for ModelOpt Llama4 (#32886)

baonudesifeizhai committed 111 days ago

Verified 1fb648bf

[Misc] Postpone torch_profiler deprecation (#32867)

NickLucche committed 111 days ago

Verified 7e223097

[Bugfix] Disable tma_aligned_scales in test_fusions_e2e (#32916)

xyang16 committed 111 days ago

Verified 90c20079

[Bugfix] Fix getting vision features in Transformer Multimodal backend (#32933)

zucchini-nlp committed 111 days ago

Verified d95d6507

[Feature]: Remove DtoH Copy for lfm2_vl On Default Stream (#32815)

tianshu-Michael-yu committed 111 days ago

Verified 13d8746c

[CPU][Feat] Update PyTorch to v2.10 for CPU Backend (#32869)

fadara01 committed 111 days ago

Verified 10e94c84

[Benchmark][Bugfix] Fix race condtion when starting server for sweep benchmark (#32927)

Isotr0py committed 111 days ago

Verified 243e78c2

[CPU Backend][BugFix] Fix failing CPU MoE test (#32876)

fadara01 committed 111 days ago

Verified aac0b817

[Frontend][3/n] Make pooling entrypoints request schema consensus | EmbedRequest & ClassifyRequest (#32905)

noooop committed 111 days ago

Verified 05f3d714

[Voxtral] Add new streaming arch (#32861)

patrickvonplaten committed 111 days ago

Verified 3f3f8952

[CI/Build][CPU] Fix failed pooling tests and macos smoke test (#32907)

bigPYJ1151 committed 111 days ago

Verified 5da4c7d7

[Misc] Add `get_name` to missing AttentionBackends (#32698)

NickLucche committed 111 days ago

Verified 160c6fa3

[CI][Models] Add VLM Support for Sequence Classification Conversion (#32885)

AndreasKaratzas committed 111 days ago

Verified a8eb1182

[Bugfix] Fix _CPU_MOE_ACT AssertionError when vLLM config not set (#32777)

karanb192 committed 111 days ago

Verified fa6e599a

[CI] Fix mypy for `vllm/v1/structured_output` (#32722)

yewentao256 committed 111 days ago

Verified 7ef58737

[torch.compile] Compile `CustomOp.forward_native` for `SiluAndMul` and `QuantFP8` to avoid raw torch ops inside opaque custom ops (#32806)

ProExpertProg committed 111 days ago

Verified 5e4e0e51