onnxruntime
3580e013 - [js/webgpu] Optimize grouped conv (#21892)

Commit

1 year ago

[js/webgpu] Optimize grouped conv (#21892) ### Description  #21618 This PR optimizes grouped conv by 1) more sequential memory access in gpu 2) reusing input's data to reduce global memory access times. See `Conv|GroupedConv` op in [Wav2Vec2](https://huggingface.co/facebook/wav2vec2-base-960h) becomes 92 ms from 1058 ms on iGPUs with 32 EU. For the whole model on my iGPUs with 32 EU, wav2vec2 model becomes 982ms from 1942 ms. squeezebert-uncased model becomes 71.86ms from 431.77ms. ### Motivation and Context

References

#21892 - [js/webgpu] Optimize grouped conv

Author

qjia7

Parents

30f07758

onnxruntime 3580e013 - [js/webgpu] Optimize grouped conv (#21892)

onnxruntime
3580e013 - [js/webgpu] Optimize grouped conv (#21892)