vllm-project/vllm

Pull Requests Commits

[V1] Support multiple kv connectors (#17564)

mgoin committed 233 days ago

Verified 2142035b

[CI] Fix race condition in test_kv_cache_events test (#18169)

russellb committed 233 days ago

Verified 78aa341d

Add support for loading torchao models with `AOPerModuleConfig` (#17826)

jerryzh168 committed 234 days ago

Verified 79747367

[V1] Structured Outputs + Thinking compatibility (#16577)

aarnphm committed 234 days ago

Verified 2fc9075b

[Kernel] Have rotary embeddings support tensors (#18046)

LucasWilkinson committed 234 days ago

Verified d93c976a

[Frontend] decrease import time of vllm.multimodal (#18031)

davidxia committed 234 days ago

Verified 749f7925

[CI] Disable Failing Tests (#18165)

robertgshaw2-redhat committed 234 days ago

Verified 85686500

Modularize fused experts and integrate PPLX kernels (#15956)

bnellnm committed 234 days ago

Verified f9c069c8

[V1][Spec Decode] Share input embedding of target model with EAGLE draft model to free ~1GB for llama 3 model (#17326)

ekagra-ranjan committed 234 days ago

Verified 418d2f8b

[Doc] Update prefix cache metrics to counting tokens (#18138)

heheda12345 committed 234 days ago

Verified 964472b9

[KVConnector] Keep KVTransferParams as a dict (#18033)

njhill committed 234 days ago

Verified 59dd311c

[Bugfix] Fix chat utils tests (#18139)

DarkLight1337 committed 234 days ago

Verified d066e520

Update deprecated type hinting in `platform`, `plugins`, `triton_utils`, `vllm_flash_attn` (#18129)

hmellor committed 234 days ago

Verified c8ea982d

Update deprecated type hinting in `vllm/device_allocator` and `vllm/distributed` (#18126)

hmellor committed 234 days ago

Verified dc372b9c

Update deprecated type hinting in `vllm/lora` (#18128)

hmellor committed 234 days ago

Verified 9b5b39b6

[doc] add missing import (#18133)

reidliu41 committed 234 days ago

Verified 9ccc6ded

[Model] GritLM supports other attention backends (#18109)

DarkLight1337 committed 234 days ago

Verified d62a076e

[Bugfix] Fix LoRA test (#18123)

jeejeelee committed 234 days ago

Verified 259127f8

[FEAT] [ROCm]: Add AITER CK 2 Stages MoE support (#17110)

tjtanaa committed 234 days ago

Verified 612c2edb

[Bugfix] Fix QKVCrossParallelLinear::sync_weight_attrs for PyTorch compile (#17844)

anko-intel committed 234 days ago

Verified 38fe728d

[Misc] replace does not exist model (#18119)

lengrongfu committed 234 days ago

Verified 82e7f9bb

[Model] Add packed_modules_mapping for Qwen3-MOE (#18118)

jeejeelee committed 234 days ago

Verified 63dc3426

[Bugfix] Fix entrypoints audio test failure (#18111)

DarkLight1337 committed 234 days ago

Verified 8f5dc414

[New Model]: support GTE NewModel (#17986)

noooop committed 234 days ago

Verified 63ad6222

[Bugfix][Example] make lmcache v0 work. (#18051)

majianpeng committed 234 days ago

Verified e7ef61c1

[Bugfix] fix moe marlin `topk_weight` loading (#18080)

jinzhen-lin committed 234 days ago

Verified d4154c35

[Fix] Move "model_config" as keyword args in chat_utils.py (#18098)

lk-chen committed 234 days ago

Verified 6685890d

Fix broken example: examples/offline_inference/profiling at scheduler_config (#18117)

Ecthlion committed 234 days ago

Verified 33011318

[BugFix][AMD] Compatible patch for AITER lib after 04/20 (#17912)

qli88 committed 234 days ago

Verified 4f8b3732

[AMD][torch.compile] Enable silu+fp8_quant fusion for rocm (#18082)

charlifu committed 234 days ago

Verified 7b2f28de

Newer Older