transformers
075dbbce - fix(trainer): Correct loss scaling for incomplete gradient accumulation steps (#39659)

Commit

167 days ago

fix(trainer): Correct loss scaling for incomplete gradient accumulation steps (#39659) * Fix issue[#38837]: wrong loss scaled in last step of epoch * chore: trigger CI * Update src/transformers/trainer.py Co-authored-by: Quentin Gallouédec <45557362+qgallouedec@users.noreply.github.com> * Update src/transformers/modeling_flash_attention_utils.py Co-authored-by: Quentin Gallouédec <45557362+qgallouedec@users.noreply.github.com> --------- Co-authored-by: taihang <taihang@U-2RHYVWX7-2207.local> Co-authored-by: Quentin Gallouédec <45557362+qgallouedec@users.noreply.github.com>

References

#39659 - fix(trainer): Correct loss scaling for incomplete gradient accumulation steps

#39821 - Support MetaCLIP 2

#58 - Add EoMT DINOv3 model

#59 - Fix attention mask handling in EoMT-DINOv3 converter

#41212 - Add EoMT with DINOv3 backbone

#62 - Add initial DEIMv2 model implementation

Author

hutaiHang

Parents

1d061536

transformers 075dbbce - fix(trainer): Correct loss scaling for incomplete gradient accumulation steps (#39659)

transformers
075dbbce - fix(trainer): Correct loss scaling for incomplete gradient accumulation steps (#39659)