MoE论文学习(二)Outrageously Large Neural Networks

109 阅读2分钟

《Outrageously Large Neural Networks》读书笔记

1. 核心思想

论文提出了一种 稀疏门控专家混合层(Sparsely-Gated Mixture-of-Experts, MoE)  ,旨在解决大规模神经网络训练中的计算效率与模型容量之间的矛盾。其核心思想是通过 动态条件计算(Conditional Computation)  ,将模型分解为多个独立的“专家”(Expert)网络,并基于输入数据特征动态激活部分专家,从而实现以下目标:

  1. 显著提升模型容量:通过增加专家数量(如千级别),模型参数规模可扩展至千亿级别(如137B参数),而传统密集模型受限于计算资源难以达到同等规模。
  2. 保持计算效率:每个输入仅激活少量专家(如Top-2),大部分专家处于未激活状态,计算资源消耗与激活专家数量成比例,而非总参数规模。
  3. 专家专业化与负载均衡:通过门控网络(Gating Network)的噪声注入和损失约束,促使不同专家学习不同子任务,同时避免某些专家被过度使用或闲置。

2. 方法架构

1. MoE层设计

  • 专家网络(Experts)  :多个独立的前馈子网络(Feed-Forward Networks, FFN),结构相同但参数独立。
  • 门控网络(Gating Network)  :动态选择激活专家的关键组件,输出稀疏权重向量,决定哪些专家参与当前输入的计算。
  • 输出公式

02.png

2. 门控机制创新

  • Top-K选择与噪声注入

    G(x)=Softmax(KeepTopK(H(x),k))

02_2.png

通过添加高斯噪声和可学习的噪声权重(Wnoise),增强门控决策的多样性,避免专家过度极化。

  • 负载均衡约束

    • 重要性损失(Importance Loss)  :约束专家权重总和在不同样本间的方差,防止某些专家长期被忽略。
    • 负载损失(Load Loss)  :约束每个专家被选中的概率分布,平衡计算负载。

3. 层次化扩展

对于超大规模专家(如千级以上),提出 层次化MoE(Hierarchical MoE)  ,通过两级门控网络逐层筛选专家,降低计算复杂度。