《Outrageously Large Neural Networks》读书笔记
1. 核心思想
论文提出了一种 稀疏门控专家混合层(Sparsely-Gated Mixture-of-Experts, MoE) ,旨在解决大规模神经网络训练中的计算效率与模型容量之间的矛盾。其核心思想是通过 动态条件计算(Conditional Computation) ,将模型分解为多个独立的“专家”(Expert)网络,并基于输入数据特征动态激活部分专家,从而实现以下目标:
- 显著提升模型容量:通过增加专家数量(如千级别),模型参数规模可扩展至千亿级别(如137B参数),而传统密集模型受限于计算资源难以达到同等规模。
- 保持计算效率:每个输入仅激活少量专家(如Top-2),大部分专家处于未激活状态,计算资源消耗与激活专家数量成比例,而非总参数规模。
- 专家专业化与负载均衡:通过门控网络(Gating Network)的噪声注入和损失约束,促使不同专家学习不同子任务,同时避免某些专家被过度使用或闲置。
2. 方法架构
1. MoE层设计
- 专家网络(Experts) :多个独立的前馈子网络(Feed-Forward Networks, FFN),结构相同但参数独立。
- 门控网络(Gating Network) :动态选择激活专家的关键组件,输出稀疏权重向量,决定哪些专家参与当前输入的计算。
- 输出公式:
2. 门控机制创新
-
Top-K选择与噪声注入:
G(x)=Softmax(KeepTopK(H(x),k))
通过添加高斯噪声和可学习的噪声权重(Wnoise),增强门控决策的多样性,避免专家过度极化。
-
负载均衡约束:
- 重要性损失(Importance Loss) :约束专家权重总和在不同样本间的方差,防止某些专家长期被忽略。
- 负载损失(Load Loss) :约束每个专家被选中的概率分布,平衡计算负载。
3. 层次化扩展
对于超大规模专家(如千级以上),提出 层次化MoE(Hierarchical MoE) ,通过两级门控网络逐层筛选专家,降低计算复杂度。