text-generation-inference
fe80f536 - feat(server): auto max_batch_total_tokens for flash att models (#630)

Commit

2 years ago

feat(server): auto max_batch_total_tokens for flash att models (#630)

References

#630 - feat(server): auto max_batch_total_tokens for flash att models

Author

OlivierDehaene

OlivierDehaene

Parents

Loading