[mta] APEX style Fused Adam (#81705)

Commit

2 years ago

[mta] APEX style Fused Adam (#81705) This PR implements an APEX style FusedAdam in PyTorch. This is different from the APEX one in that this is compatible with `torch.cuda.amp.GradScaler` by setting `_step_supports_amp_scaling` to `True` and unscales gradients inside its CUDA kernel. related: https://github.com/pytorch/pytorch/issues/68041, https://github.com/pytorch/pytorch/issues/71274, https://github.com/pytorch/pytorch/issues/80167 possibly related to https://github.com/pytorch/pytorch/issues/80595#issuecomment-1178519436 cc @ptrblck @ngimel Pull Request resolved: https://github.com/pytorch/pytorch/pull/81705 Approved by: https://github.com/ngimel

Author

crcrpar

Committer

pytorchmergebot

Parents

00a10652

pytorch 7a6c4d0c - [mta] APEX style Fused Adam (#81705)

pytorch
7a6c4d0c - [mta] APEX style Fused Adam (#81705)