opencl: optimize mxfp4 kernels (#16037)

Commit

162 days ago

opencl: optimize mxfp4 kernels (#16037) - flatten mxfp4 and packed fp4->fp16 bit-wise convert function (replace lut) - MoE kernel optimizations --------- Co-authored-by: Li He <lih@qti.qualcomm.com>