llama.cpp
ebd062bc - cuda : use 512 threads for soft_max instead of 32

Commit

2 years ago

cuda : use 512 threads for soft_max instead of 32

References

#4256 - ggml : add ggml_soft_max_ext

Author

ggerganov

ggerganov

Committer

ggerganov

ggerganov

Parents

Loading