DeepSpeed
allow seperate learning rate "muon_lr" and "adam_lr" for muon optimizer
#7658

Merged

Login via GitHub
Home
Pricing
FAQ
Install

Login via GitHub

FAQ Terms Privacy Refunds Impressum

Loading