DeepSpeed
support bf16_optimizer moe expert parallel training and moe EP grad_scale/grad_norm fix
#5259

Merged

support bf16_optimizer moe expert parallel training and moe EP grad_scale/grad_norm fix #5259

tjruwase merged 20 commits into deepspeedai:master from inkcherry:bf16_moe

support bf16_optimizer moe training

8599e34b

inkcherry requested a review from

mrwyattii 2 years ago

inkcherry requested a review from

tjruwase 2 years ago

tjruwase removed review request from

mrwyattii 2 years ago

tjruwase requested a review from

tohtana 2 years ago

Merge branch 'master' into bf16_moe

259ddf0e

fix real_dp world_size

8179f3c1

Merge branch 'bf16_moe' of https://github.com/inkcherry/DeepSpeed int…

c01ead39

Make the gradient and gradient norm scale of MOE more reasonable.

b4221735

clean up

8510d5d0

moe grad scale fix

4a0efe66

Merge remote-tracking branch 'master' into HEAD

92fbd5ec

mosheisland commented on 2024-03-19

fix dp_world_size position

c2d50eae

make grad_norm more precise for fp16

51c9136d

refine code

ad8803bc

inkcherry requested a review from

awan-10 2 years ago

tp compatibility

1d51f69b

clean up

7de966cf

fix typo

443b8ec9

inkcherry changed the title ~~support bf16_optimizer moe expert parallel training~~ support bf16_optimizer moe expert parallel training and moe grad_scale/grad_norm fix 2 years ago

fix operator order

973f2717

inkcherry changed the title ~~support bf16_optimizer moe expert parallel training and moe grad_scale/grad_norm fix~~ support bf16_optimizer moe expert parallel training and moe EP grad_scale/grad_norm fix 2 years ago

Merge branch 'master' into bf16_moe

44505aa0

mosheisland commented on 2024-03-25

fix total_norm .item()

f22d141c

Merge branch 'master' into bf16_moe

e4401ec0

tohtana approved these changes on 2024-03-26

fix ut

966a074a

inkcherry requested a review from

loadams 2 years ago

Merge branch 'bf16_moe' of https://github.com/inkcherry/DeepSpeed int…

6e214739

tjruwase merged e5dd5501 into master 2 years ago

Reviewers

tohtana

mosheisland

tjruwase

awan-10

loadams

Assignees

No one assigned

Labels

None yet

Milestone

No milestone

DeepSpeed support bf16_optimizer moe expert parallel training and moe EP grad_scale/grad_norm fix #5259 Merged

support bf16_optimizer moe expert parallel training and moe EP grad_scale/grad_norm fix #5259

DeepSpeed
support bf16_optimizer moe expert parallel training and moe EP grad_scale/grad_norm fix
#5259

Merged