llama.cpp
e9e661bd - CUDA: remove unnecessary warp reduce in FA (ggml/1032)

Commit

1 year ago

CUDA: remove unnecessary warp reduce in FA (ggml/1032) * kqmax_new_j in every thread within warp is same after operate at line 199,this reduce can be omit * same problem in vec32 --------- Co-authored-by: ZhaoXiaoYu <zhao.xiaoyu@zte.com.cn>

References

#10639 - sync : ggml

Author

mahorozte

Committer

ggerganov

Parents

efb6ae96

llama.cpp e9e661bd - CUDA: remove unnecessary warp reduce in FA (ggml/1032)

llama.cpp
e9e661bd - CUDA: remove unnecessary warp reduce in FA (ggml/1032)