metal: optimise `GGML_OP_SUM` (#16559)

Commit

233 days ago

metal: optimise `GGML_OP_SUM` (#16559) * optimise GGML_OP_SUM * add non-contiguous tests by permuting the input * change tests to require full contiguity of OP_SUM * cuda : add check GGML_OP_SUM --------- Co-authored-by: Georgi Gerganov <ggerganov@gmail.com>