MMoE - Multi-gate Mixer-of-Experts - 多门控专家网络
聊到MMoE就要说到他的起源MoE
MoE核心出发点
当前工业场景中,模型体量大,数据量大,每一个样本都要经过整个大模型计算,速度慢
MoE核心方法
将大模型拆分成N个小模型,对训练数据进行划分,当训练数据满足某个条件时,将它送入某一个小模型进行特征抽取,公式如下:
- 就是门控单元输出结果,实现非常简单:一层Linear+一个Softmax
- 就是第i个专家网络 具体而言,门控还做了一些处理如下,有空再补理解
MMoE核心出发点
- 将MoE引入多任务模型中
- 每个任务共享同一套Experts Network,但使用不同的Gates来激活不同的Experts
MMoE核心方法
网络结构如下图:
针对不同任务使用不同的Gates网络来激活Experts的输出