Pull Requests deepspeedai/DeepSpeed

Use pytorch utils to detect ninja

#7687 by Emrys-Merlin was merged 2025-11-12 23:27

disable nv-lightning-v100.yml cI

#7681 by stas00 was merged 2025-11-08 14:05

[modal ci] fixes

#7676 by stas00 was merged 2025-11-06 19:42

Update version.txt after release

#7675 by loadams was merged 2025-11-06 01:22

leaf modules: explain better

#7674 by stas00 was merged 2025-11-07 23:25

README refresh

#7668 by sfc-gh-truwase was merged 2025-11-04 23:10

Enabled compiled autograd for backward pass

#7667 by deepcharm was merged 2025-12-05 15:46

PyTorch-compatible backward API

#7665 by tohtana was merged 2025-11-19 00:26

UlyssesSP: TiledMLP doc - recomputes forward twice

#7664 by stas00 was merged 2025-11-03 18:47

[bug]: fixed comm_dtype in extra_large_param_to_reduce

#7660 by therealnaveenkamal was merged 2025-10-31 04:19

resolved a 0-dim tensor slicing bug from _get_state_without_padding

#7659 by therealnaveenkamal was merged 2025-11-03 19:37

allow seperate learning rate "muon_lr" and "adam_lr" for muon optimizer

#7658 by delock was merged 2025-11-11 05:26

ALST/UlyssesSP: more intuitive API wrt variable seqlen

#7656 by stas00 was merged 2025-10-29 00:10

[ROCm] Relax tolerances for FP8 unit test for fp16 and bf16 cases

#7655 by rraminen was merged 2025-12-03 13:56

Fix typo in pytorch-profiler.md documentation

#7652 by kunheek was merged 2025-11-03 19:46

Deduplicate fp32 weights under torch autocast and ZeRO3

#7651 by eternalNight was merged 2025-10-27 21:56

ulysses mpu: additional api

#7649 by stas00 was merged 2025-10-28 03:43

Put Muon optimizer momentum buffer on GPU

#7648 by delock was merged 2025-11-26 07:31

Update version after 0.18.1 release

#7647 by loadams was merged 2025-10-23 18:05

Add torch.compile test conf to existing tests

#7646 by NirSonnenschein was closed 2025-11-13 08:02

Fix misplaced overflow handling return in fused_optimizer.py

#7645 by rraminen was merged 2025-10-31 02:03

No Muon optimizer for embeding and lm_head layer

#7641 by delock was merged 2025-10-22 14:40

Fix illegal memory access with multi_tensor_apply size above INT_MAX

#7639 by wangyan-mms was merged 2025-10-21 22:20

Ulysses HF Accelerate integration

#7638 by stas00 was merged 2025-10-22 18:57

z2: report param name and not zero id in assert

#7637 by stas00 was merged 2025-10-22 16:07

z2: don't pass `dtype` to `report_ipg_memory_usage`

#7636 by stas00 was merged 2025-10-22 17:15

Take **kwargs in __init__ of DeepSpeedZeroOptimizer subclasses

#7634 by eternalNight was merged 2025-10-20 05:07

add support for tensor learning rate (vs scalar)

#7633 by NirSonnenschein was merged 2025-10-20 05:32

[XPU][CI] recover xpu-max1100 workflow

#7630 by Liangliang-Ma was merged 2025-10-13 16:43

Update email address

#7624 by sfc-gh-truwase was merged 2025-10-07 17:15