vllm-project/vllm

Pull Requests Commits

Revert "Implicit language-model-only mode via limit-mm-per-prompt (#22299)"

Roger Wang committed 251 days ago

Verified 42018e8d

Implicit language-model-only mode via limit-mm-per-prompt (#22299)

Roger Wang committed 251 days ago

Verified 08b751ba

[Bugfix] Fix ModernBert cuda graph capturing in v1 (#21901)

Isotr0py committed 251 days ago

Verified 429e4e2d

[BugFix] [P/D] Handle lookahead token count edge-case with Eagle Spec Decoding and P/D (#22317)

Pradyun92 committed 251 days ago

Verified 35afe1b3

[XPU] upgrade torch 2.8 on for XPU (#22300)

jikunshang committed 251 days ago

Verified 81c57f60

Drop flaky test_healthcheck_response_time (#22539)

russellb committed 251 days ago

Verified 311d8756

Extract `CompilationConfig` from `config.py` (#22524)

hmellor committed 251 days ago

Verified e3edc0a7

[Frontend] Add unix domain socket support (#18097)

yyweiss committed 251 days ago

Verified baece8c3

[Docs] fix broken links in metrics.md (#22315)

GuyStone committed 251 days ago

Verified 2fcf6b27

Skip Qwen 1 in CI because remote code is no longer compatible with Transformers (#22536)

hmellor committed 251 days ago

Verified 41b96557

[Bugfix] Update FA commit hash (#22546)

tdoublep committed 251 days ago

Verified bd875d2e

[Misc] DeepGEMM : Avoid JIT generation in the hot-path (#22215)

varun-sundar-rabindranath committed 251 days ago

Verified f703b923

[BugFix] Fix IMA FlashMLA full cuda-graph and DP + Update FlashMLA (#21691)

LucasWilkinson committed 251 days ago

Verified cd9b9de1

[gpt-oss] Support tool call and implement MCP tool server (#22427)

heheda12345 committed 251 days ago

Verified fe6d8257

[Docs] Rename “Distributed inference and serving” to “Parallelism & Scaling” (#22466)

crypdick committed 252 days ago

Verified e2905940

[gpt-oss] guard import when triton kernel is not installed (#22529)

zyongye committed 252 days ago

f756a682

[Benchmark] Add benchmark tool for multi turn conversations (#20267)

pliops-daniels committed 252 days ago

Verified f0964e29

[gpt-oss] triton kernel mxfp4 (#22421)

zyongye committed 252 days ago

Verified e789cad6

Remove exception for Python 3.8 typing from linter (#22506)

hmellor committed 252 days ago

Verified e5ebeeba

[Docs] Improve API docs (+small tweaks) (#22459)

hmellor committed 252 days ago

Verified 7be7f382

[BugFix] Don't cancel asyncio tasks directly from destructors (#22476)

njhill committed 252 days ago

Verified ccdae737

[Misc] fix openai version (#22485)

lengrongfu committed 252 days ago

Verified 90406390

[Misc] Begin deprecation of `get_tensor_model_*_group` (#22494)

DarkLight1337 committed 252 days ago

Verified 43c4f3d7

[CI/Build] Fix multimodal tests (#22491)

DarkLight1337 committed 252 days ago

Verified 1712543d

[bench] Fix benchmark/serve.py to ignore unavailable results (#22382)

lk-chen committed 252 days ago

Verified 808a7b69

[Doc] Sleep mode documentation (#22310)

iAmir97 committed 252 days ago

Verified 099c0464

[bugfix] Fix Llama3/4 issues caused by FlashInfer 0.2.10 (#22426)

nvpohanh committed 252 days ago

Verified af473f0a

Fix pre-commit (#22487)

DarkLight1337 committed 252 days ago

Verified 157f9c13

Optimize MiniCPMO mask creation with vectorized implementation (#22464)

skyloevil committed 252 days ago

Verified 6f287915

not tie_word_embeddings for glm-4.5 and glm-4.5v (#22460)

zRzRzRzRzRzRzR committed 252 days ago

Verified c152e2a8

Older