PR #630 feat(server): auto max_batch_total_tokens for flash att models

feat(server): auto max_batch_total_tokens for flash att models #630

OlivierDehaene merged 19 commits into main from feat/automatic_max

feat(server): auto max_batch_total_tokens for flash att models

b165f8b7

fix default value

4201a8be

fix default value

a6b128b2

update logs

086d0c22

pad to block size

d2e38435

add block size parameter

79616a87

revert back to normal allocator

de892fb4

cleanup

160a50af

OlivierDehaene force pushed from d3115082 to 160a50af 2 years ago

add syncs

1686a7c0

use max_memory_reserved

36a9bddd

sleep to connect to the CI runner

45d24bea

add tmate

99568eef

reset peak memory

05d2a77e

use less memory

0111869a

add clear cache when batch is finished

8793ae58

revert

7f399cd8

try 0.99

0a028018

0.985

406b0940

0.98

2934543a

OlivierDehaene merged fe80f536 into main 2 years ago

OlivierDehaene deleted the feat/automatic_max branch 2 years ago

Reviewers

No reviews

Assignees

No one assigned

Labels

None yet

Milestone

No milestone

text-generation-inference feat(server): auto max_batch_total_tokens for flash att models #630 Merged

feat(server): auto max_batch_total_tokens for flash att models #630

text-generation-inference
feat(server): auto max_batch_total_tokens for flash att models
#630

Merged