DeepSpeed
No Muon optimizer for embeding and lm_head layer
#7641

Merged

No Muon optimizer for embeding and lm_head layer #7641

sfc-gh-truwase merged 1 commit into master from gma/auto_muon

delock requested a review from

loadams 284 days ago

delock requested a review from

tjruwase 284 days ago

delock force pushed from 6d331b3e to a59a4528 284 days ago

filter out embed layer and lm_head layer from Muon optimizer

a59a4528

sfc-gh-truwase approved these changes on 2025-10-22

sfc-gh-truwase merged 67b365af into master 284 days ago

sfc-gh-truwase deleted the gma/auto_muon branch 284 days ago

Reviewers

sfc-gh-truwase

loadams

tjruwase

Assignees

No one assigned

Labels

None yet

Milestone

No milestone