vllm-project/vllm

Pull Requests Commits

Add buffer donation to benchmark

WoosukKwon committed 2 years ago

c00ddd68

WoosukKwon committed 2 years ago

881b8840

Disable memory tracking

WoosukKwon committed 2 years ago

98a3df0f

Fix for binary cache

WoosukKwon committed 2 years ago

3f6288cc

Tune pages_per_compute_block

WoosukKwon committed 2 years ago

408ff495

WoosukKwon committed 2 years ago

278e8a1a

Improve benchmark

WoosukKwon committed 2 years ago

07be6ed3

Use persistent cache

WoosukKwon committed 2 years ago

f6637dba

Move JAX-smi to worker

WoosukKwon committed 2 years ago

707a5f64

WoosukKwon committed 2 years ago

57690a9c

Add precompilation step

WoosukKwon committed 2 years ago

b15db234

Add op benchmark scripts

WoosukKwon committed 2 years ago

d1591f0f

WoosukKwon committed 2 years ago

85d44884

WoosukKwon committed 2 years ago

8d072dbf

WoosukKwon committed 2 years ago

d830766c

Add warmup + formatting

WoosukKwon committed 2 years ago

5ae2f81c

WoosukKwon committed 2 years ago

4ea41d01

WoosukKwon committed 2 years ago

d16a3484

Format gemma.py

WoosukKwon committed 2 years ago

aa092834

WoosukKwon committed 2 years ago

d2c6a32c

WoosukKwon committed 2 years ago

21f35c22

WoosukKwon committed 2 years ago

2aa9831d

Fix KV cache shape

WoosukKwon committed 2 years ago

028f528a

WoosukKwon committed 2 years ago

fa5bacd5

WoosukKwon committed 2 years ago

b62170e4

WoosukKwon committed 2 years ago

98eda578

Pad to avoid recompilation

WoosukKwon committed 2 years ago

81b8b813

WoosukKwon committed 2 years ago

e2c7dedb

Increase #blocks

WoosukKwon committed 2 years ago

5323969f

Include argmax to jit

WoosukKwon committed 2 years ago

f42b4c27

Older