推荐模型-MMoE核心总结

664 阅读1分钟

MMoE - Multi-gate Mixer-of-Experts - 多门控专家网络

聊到MMoE就要说到他的起源MoE

MoE核心出发点

当前工业场景中,模型体量大,数据量大,每一个样本都要经过整个大模型计算,速度慢

MoE核心方法

将大模型拆分成N个小模型,对训练数据进行划分,当训练数据满足某个条件时,将它送入某一个小模型进行特征抽取,公式如下:

image.png

  • G(x)iG(x)_i就是门控单元输出结果,实现非常简单:一层Linear+一个Softmax
  • E(x)iE(x)_i就是第i个专家网络 具体而言,门控还做了一些处理如下,有空再补理解

image.png

MMoE核心出发点

  1. 将MoE引入多任务模型中
  2. 每个任务共享同一套Experts Network,但使用不同的Gates来激活不同的Experts

MMoE核心方法

网络结构如下图:

image.png

针对不同任务使用不同的Gates网络来激活Experts的输出

后续利用该模型,主要针对多任务场景下,不同相关性的任务的表现进行了分析,有空填坑