MoE论文学习(一)Adaptive Mixtures of Local Experts

167 阅读2分钟

《Adaptive Mixtures of Local Experts》读书笔记

1. 核心思想

分治而治

  • 模块化架构:将复杂任务分解为多个子任务,由独立的专家网络(Experts)处理不同数据子集。
  • 动态分配机制:通过门控网络(Gating Network)动态分配输入数据到最合适的专家,减少任务干扰。
  • 关联式竞争学习:结合监督学习与竞争学习的优势,既保留模块化分工,又实现全局优化。

创新点

  1. 首次将条件计算引入神经网络,专家网络的激活由输入数据决定。
  2. 提出门控网络与专家联合训练的框架,为后续MoE发展奠定基础。
  3. 验证了模块化架构在语音识别等任务中的高效性。

2. 模型结构与工作机制

模型结构

  • 专家网络(Experts)  :多个独立的前馈网络,每个专家专注于输入空间的局部区域。
  • 门控网络(Gating Network)  :输出概率分布,决定各专家对当前输入的贡献权重。
  • 输出整合:最终输出为各专家输出的加权和,权重由门控网络分配。

训练机制

  • 损失函数设计:采用加权均方误差(Weighted MSE),迫使专家在特定区域优化性能。公式如下:

微信图片_20250222165355.png

  • 梯度下降优化:同时更新专家和门控网络的参数,通过竞争机制促使专家差异化。

自适应混合策略

  • 责任分配:门控网络根据专家在历史样本上的误差动态调整权重。若某专家在特定区域的误差低于其他专家,其权重会增加。
  • 稀疏性:实际训练中,系统倾向于仅激活少数专家,其余权重趋近于零,实现计算效率与模型容量的平衡