MoE论文学习（三）GShard《GShard》读书笔记首个将混合专家模型（Mixture of Experts,

《GShard》读书笔记

1. 核心思想

GShard（Google, 2020）是首个将 混合专家模型（Mixture of Experts, MoE） 与Transformer架构深度结合的分布式训练框架，其核心目标是解决超大规模模型训练中的计算效率与扩展性问题。通过 条件计算（Conditional Computation） 和 自动分片（Automatic Sharding） ，GShard实现了在保持模型性能的同时显著降低训练成本，参数规模可达6000亿，并在多语言机器翻译等任务中展现突破性效果。

2. 技术方案

MoE-Transformer架构设计
- 稀疏激活：每个Token仅经过两个专家，计算量从O(N)降为O(2)（N为专家总数）。
- 局部分组（Local Group Dispatching） ：将Batch内Token分组并行处理，减少跨设备通信。
分布式训练框架
- SPMD（单程序多数据）模式：所有设备运行相同代码，简化开发流程。
- 分片标注（Sharding Annotation） ：通过API标注张量分片策略，编译器自动生成高效并行代码。

关键优化技术

技术	作用	效果
专家容量限制	防止单个专家过载	训练速度提升30%
设备级平衡损失	均衡跨设备的计算负载	TPU利用率提高至90%以上
随机路由	增加专家选择多样性	模型BLEU得分提升2.5