llama.cpp
b2debf65 - parallel : add disabled experimental batch chunking in powers of two

Commit

2 years ago

parallel : add disabled experimental batch chunking in powers of two

References

#3228 - llama : custom attention mask + parallel decoding + no context swaps

Author

ggerganov

ggerganov

Parents

Loading