llama.cpp
897caccd - fixes : speculative KV cache + llama worst-case graph

Commit

2 years ago

fixes : speculative KV cache + llama worst-case graph

References

#3228 - llama : custom attention mask + parallel decoding + no context swaps

Author

ggerganov

ggerganov

Committer

ggerganov

ggerganov

Parents

Loading