llama.cpp
91544948 - CUDA: mul_mat_id always on GPU for batches >= 32 (#4553)

Commit

1 year ago

CUDA: mul_mat_id always on GPU for batches >= 32 (#4553)

References

#4553 - CUDA: faster Mixtral prompt processing for partial offloading

Author

JohannesGaessler

JohannesGaessler

Parents

Files1

ggml-cuda.cu