PR #7265 Fix fp8 gemm - SemanticDiff

Optimize the fp-dequantizer to get high memory-BW utilization

sfc-gh-reyazda committed 1 year ago

fix formating

sfc-gh-reyazda committed 1 year ago

Merge branch 'master' into master

RezaYazdaniAminabadi committed 1 year ago

Merge branch 'microsoft:master' into master

RezaYazdaniAminabadi committed 1 year ago

Merge branch 'microsoft:master' into master

RezaYazdaniAminabadi committed 1 year ago

Merge branch 'deepspeedai:master' into master

RezaYazdaniAminabadi committed 314 days ago

test

Reza Yazdani committed 314 days ago

fix the fp8-gemm by removing prefetching from bf16 conversion (New Triton seems to be picky on this)

Reza Yazdani committed 314 days ago

formatting

jeffra committed 314 days ago

Update deepspeed/ops/fp_quantizer/quantize.py

sfc-gh-mwyatt committed 314 days ago

Update fp_quantizer.py

sfc-gh-mwyatt committed 314 days ago

Merge branch 'master' into fix-fp8-gemm

loadams committed 306 days ago

DeepSpeed Fix fp8 gemm #7265 Merged