vllm-project/vllm

Pull Requests Commits

Robert Shaw committed 102 days ago

3bf491b5

next step: add support for scalartype to quantkey

Robert Shaw committed 102 days ago

7b5b8923

making progress

Robert Shaw committed 102 days ago

8a31a6f2

update for triton

Robert Shaw committed 103 days ago

b264a674

update for marlin

Robert Shaw committed 103 days ago

bc41d5dc

create mixed input file

Robert Shaw committed 103 days ago

c2b99f53

Merge remote-tracking branch 'upstream/main' into wna16-modular-kernel

Robert Shaw committed 103 days ago

808a0e1a

[CI][Pooling] Stabilize ModernBERT test (#32909)

AndreasKaratzas committed 103 days ago

Verified 6c006457

[code clean] remove duplicate code (#33135)

andyxning committed 103 days ago

Verified b781eeaa

[Frontend] Cleanup serving engine (#33103)

DarkLight1337 committed 103 days ago

Verified e0b005d9

[torch.compile] Stop assuming 32 bit indexing (#33113)

zou3519 committed 103 days ago

Verified 3b8f0fe5

[Frontend] Reduce mixin usage in serving pooling (#33101)

DarkLight1337 committed 103 days ago

Verified c831911b

[Perf] avoid duplicate mem_get_info() call in get_current_memory_usage (#33064)

pacoxu committed 103 days ago

Verified 157caf51

[DOC]: Add warning about max_num_batched_tokens and max_model_len when chunked prefill is disabled (#33109)

VincentG1234 committed 103 days ago

Verified 0b53bec6

Fix IndexError with encoder-decoder models when using Custom Paged Attention (#33112)

sstamenk committed 103 days ago

Verified c568581f

fix: preserve native tool call ID in multi-turn tool calling (#32768)

wangln19 committed 103 days ago

Verified 2d705343

[MoE Refactor] Integrate Naive Prepare Finalize into MK (#32567)

robertgshaw2-redhat committed 103 days ago

Verified 5a93b916

[Model Runner V2] Remove UvaBufferPool for cpu->gpu copy (#33055)

WoosukKwon committed 103 days ago

Verified 6d86fde0

Robert Shaw committed 103 days ago

c217f287

[Bugfix][TPU] Return a Default fp8 MoE Backend (#32908)

vanbasten23 committed 103 days ago

Verified 510ed1e8

[Bugfix][MXFP4] Call `trtllm_fp4_block_scale_moe` with kwargs (#33104)

wpc committed 103 days ago

Verified 8caffd92

[fix] CPUDNNLGEMMHandler pointer baked into inductor artifact (#32913)

dolpm committed 103 days ago

Verified 58a05b0c

[Logging] add `--disable-access-log-for-endpoints` CLI option (#30011)

JaredforReal committed 103 days ago

Verified 6ee7f18f

[Refactor] Remove unused `_moe_permute` function (#33108)

yewentao256 committed 103 days ago

Verified 8f987883

[ci] Sync test areas with test-pipeline.yaml and enable new pipeline generator (#33080)

khluu committed 103 days ago

Verified ebe0ba91

[Bugfix] Fix Dtypes for Pynccl Wrapper (#33030)

robertgshaw2-redhat committed 103 days ago

Verified 43a013c3

[Model] Bump transformers version for test registry (#33100)

DarkLight1337 committed 103 days ago

Verified c25dbee4

[Bugfix] Fix Voxtral streaming slot_mapping (#33073)

NickLucche committed 103 days ago

Verified 19ab0f7c

[FIX] Always support TP > 4 for FP4 Gemm (#31099)

danielafrimi committed 103 days ago

Verified 67fe677c

Remove unused logic in `models/mistral.py` (#33095)

andylolu2 committed 103 days ago

Verified d56afd45

Older