DeepSpeed
08e0733e - Support MoE for pipeline models (#5338)

Commit

1 year ago

Support MoE for pipeline models (#5338) This PR enhances DeepSpeed to support MoE for pipeline models (e.g. GPTModelPipe from Megatron-DeepSpeed). Main changes: - Enhance expert groups creation for pipeline (enhance both flavors: DP/PP/EP and DP/TP/PP/EP) - Fix MoE save/load checkpoint for PipelineModule based models. - Display MoE loss for PipelineModule based models. - Support gradients reduce for BF16_Optimizer for PipelineModule.<br>Note that same commit also fixes gradients reduction error when using Megatron-DeepSpeed GPTModelPipe with BF16_Optimizer also for a dense (no MOE) model. - When using no-drop tokens, all-reduce the capacity (op=max) using expert parallel group instead of world group --------- Signed-off-by: Moshe Island <misland@habana.ai> Co-authored-by: Moshe Island <misland@habana.ai>

References

#5338 - Support MoE for pipeline models

Author

mosheisland

Parents

42a8eaa7

Files14

deepspeed
- moe
  - layer.py
  - mappings.py
  - sharded_moe.py
- ops/transformer/inference
  - moe_inference.py
- runtime
  - activation_checkpointing
    - checkpointing.py
  - bf16_optimizer.py
  - engine.py
  - pipe
    - engine.py
    - module.py
  - utils.py
  - zero
    - stage_1_and_2.py
- utils
  - bwc.py
  - groups.py
tests/unit/utils
- test_groups.py

DeepSpeed 08e0733e - Support MoE for pipeline models (#5338)

DeepSpeed
08e0733e - Support MoE for pipeline models (#5338)