《GShard》读书笔记
1. 核心思想
GShard(Google, 2020)是首个将 混合专家模型(Mixture of Experts, MoE) 与Transformer架构深度结合的分布式训练框架,其核心目标是解决超大规模模型训练中的计算效率与扩展性问题。通过 条件计算(Conditional Computation) 和 自动分片(Automatic Sharding) ,GShard实现了在保持模型性能的同时显著降低训练成本,参数规模可达6000亿,并在多语言机器翻译等任务中展现突破性效果。
2. 技术方案
-
MoE-Transformer架构设计
- 稀疏激活:每个Token仅经过两个专家,计算量从O(N)降为O(2)(N为专家总数)。
- 局部分组(Local Group Dispatching) :将Batch内Token分组并行处理,减少跨设备通信。
-
分布式训练框架
- SPMD(单程序多数据)模式:所有设备运行相同代码,简化开发流程。
- 分片标注(Sharding Annotation) :通过API标注张量分片策略,编译器自动生成高效并行代码。
-
关键优化技术
技术 作用 效果 专家容量限制 防止单个专家过载 训练速度提升30% 设备级平衡损失 均衡跨设备的计算负载 TPU利用率提高至90%以上 随机路由 增加专家选择多样性 模型BLEU得分提升2.5