MoE论文学习(三)GShard

419 阅读1分钟

《GShard》读书笔记

1. 核心思想

GShard(Google, 2020)是首个将 混合专家模型(Mixture of Experts, MoE)  与Transformer架构深度结合的分布式训练框架,其核心目标是解决超大规模模型训练中的计算效率与扩展性问题。通过 条件计算(Conditional Computation)  和 自动分片(Automatic Sharding)  ,GShard实现了在保持模型性能的同时显著降低训练成本,参数规模可达6000亿,并在多语言机器翻译等任务中展现突破性效果。

2. 技术方案

  1. MoE-Transformer架构设计

    • 稀疏激活:每个Token仅经过两个专家,计算量从O(N)降为O(2)(N为专家总数)。
    • 局部分组(Local Group Dispatching)  :将Batch内Token分组并行处理,减少跨设备通信。
  2. 分布式训练框架

    • SPMD(单程序多数据)模式:所有设备运行相同代码,简化开发流程。
    • 分片标注(Sharding Annotation)  :通过API标注张量分片策略,编译器自动生成高效并行代码。
  3. 关键优化技术

    技术作用效果
    专家容量限制防止单个专家过载训练速度提升30%
    设备级平衡损失均衡跨设备的计算负载TPU利用率提高至90%以上
    随机路由增加专家选择多样性模型BLEU得分提升2.5