华为FinalMLPFinalMLP:An Enhanced Two-Stream MLP model for CTR

FinalMLP:An Enhanced Two-Stream MLP model for CTR Prediction

摘要

Two-Stream model：因为一个普通的MLP网络不足以学到丰富的特征交叉信息，因此大家提出了很多实用MLP和其他专用网络结合来学习。 MLP是隐式地学习特征交叉，当前很多工作主要在另外一个stream中显式的增强特征交叉。本文提出的两个stream都用MLP网络，训练的好一样能达到惊人的效果。而且提出的可插拔式使用的特征选择层和交叉融合层，可以得到性能更强的two-stream MLP模型。

简介

单个MLP网络很难学到丰富的特征交叉信息。很多模型结构提出了是为了学习显式的特征交叉，像FM、CIN、AFN，虽然这些模型能很好学习到一阶、二阶、三阶等交叉特征，但是没法像MLP网络学到深层次交叉信息，因此很多two-stream的模型提出了，结合MLP网络和显式交叉网络，结合两者优点，像Wide&Deep、DeepFM、DCN、xDeepFM、AutoInt+，这些two-stream模型中，MLP网络学习隐式的特征交叉，另外一个stream学习显式的特征交叉。

很多two-stream模型都验证了对于单个MLP网络的效果，但是没有对比过结合两个MLP网络的two-stream模型（称为DualMLP），本文就做了对比，尽管DualMLP结构很简单，但是效果惊人。

two-stream模型可以视作两个并行网络的集成，每个stream可以从不同视角学到特征交叉的信息。比如Wide&Deep、DeepFM，一个stream去学习低阶的特征交叉，另外一个stream学习高阶的特征交叉；DCN、AutoInt+一个stream去学习显式的特征交叉，另外一个stream学习隐式的特征交叉；xDeepFM进一步从vector-wise和bit-wise视角学习特征交叉。这些都验证了两个stream中网络的差异对效果有重要影响。

本文的two-stream中两个stream都是MLP网络，差异性在于网络的层数和隐层单元数，实验发现可以实现更好的效果。同时将DualMLP作为base，在此基础上面增大两个stream的差异性，可以进一步提升DualMLP的效果。当前的two-stream模型在结合两个stream的时候通过sum或者concat，这个简单操作可能浪费了更高水平交叉（stream-level）的机会。

FinalMLP：intergrates Feature selection and interaction aggregation layers on top of two MLP module networks。即结合了特征选择层和交叉融合层的双流MLP网络，特征选择层是通过gate网络得到特征重要性进行soft特征选择，每个stream通过选择不同重要度的特征，增大各个stream的差异性。交叉融合层则是提出了一个二阶的双线性融合融合，同时为了减低计算复杂度，将计算分成k个组，也就是多头双线性融合。

背景及相关工作

Framework of Two-Stream CTR Models

框架图在这里插入图片描述

特征Embedding

高维稀疏到稠密的表示

特征选择

可选的层，本文提出的是软选择，通过特征的重要性权重选择

特征交叉

通过两个不同的并行的网络进行交叉

两个网络的融合（Stream-level Fusion）

假设最后预估的概率为 $\hat y$ ， $\mathbf o_1$ 和 $\mathbf o_2$ 是两个stream的输出表示， $\mathcal{F}$ 表示融合操作，通常是sum或者concat。 $w$ 表示将输出映射成一维的线性函数。 $\hat y = \sigma (w^T \mathcal{F} (\mathbf o_1, \mathbf o_2))$

代表性的Two-Stream CTR Models

Wide&Deep：一个线性网络（line stream）和一个MLP网络（deep stream） DeepFM：在wide侧用FM替换，二阶显式交叉 DCN：一个cross网络做高阶显式交叉，另外一个stream是MLP做隐式交叉 xDeepFM：使用CIN通过vector-wise方式高阶交叉，另外一个stream通过bit-wise方式隐式交叉 AutoInt+：使用自注意力网络学习高阶交叉，融合AutoInt和MLP作为two-stream AFN+：融合AFN和MLP作为two-stream DeepIM：一个交互机器组件IM（interaction machine module）学习高阶特征交叉，融合IM和MLP作为two-stream MaskNet：使用两个MaskNet作为two-stream DCN-V2：通过一个更具表现力的cross网络来做显式特征交叉，使用cross网络和MLP作为two-stream EDCN：并不是严格的two-stream模型，提出的一个桥接模块，桥接两个stream隐层的，这个操作限制每个stream的隐层必须有相同的层数和神经单元数，降低了灵活性

Two-Stream MLP Model

本文提出的两个stream都是MLP，称为DualMLP，两个MLP网络(隐层数及unit数不同)表示如下 $\mathbf o_1 = MLP_1(\mathbf h_1)$ $\mathbf o_2 = MLP_1(\mathbf h_2)$

Stream-Specific Feature Selection

受MMoE启发，每个stream根据gate网络对特征进行差异化选择，特征选择层定义如下 $\mathbf g_1 = Gate_1(\mathbf x1), \mathbf g_2 = Gate_1(\mathbf x2)$ $\mathbf h_1 = 2 \sigma(\mathbf g_1) \odot \mathbf e， \mathbf h_2 = 2 \sigma(\mathbf g_2) \odot \mathbf e$ 这里 $Gate_i$ 表示stream中MLP基于的门控网络，是以选择的特征集 $\mathbf x_i$ 作为输入，两个stream的输入可以是不同的特征子集。输出是各个特征的权重 $\mathbf g_i$ ，这里乘以2主要是为了权重均值为1。

下面有个示例图，输入分别是user、item特征集在这里插入图片描述

交叉融合Stream-Level Interaction Aggregation

Bilinear Fusion

当前都是sum或者concat融合，借鉴在CV领域广泛使用的双线性pooling，提出双线性交叉融合层，去融合两个stream的输出，表示如下 $\hat y = \sigma (b + \mathbf w_1^T \mathbf o_1 + \mathbf w_2^T \mathbf o_2 + \mathbf o_1^T \mathbf W_3 \mathbf o_2)$ 其中， $b\in R,\mathbf w_1 \in R^{d_1 \times 1}, \mathbf w_2 \in R^{d_2 \times 1} \mathbf W_3 \in R^{d_1 \times d_2}$ ,这里 $d_1$ 和 $d_2$ 表示 $\mathbf o_1$ 和 $\mathbf o_2$ 的维度。

$\mathbf o_1^T \mathbf W_3 \mathbf o_2$ 表示 $\mathbf o_1$ 和 $\mathbf o_2$ 二阶双线性交叉，当 $\mathbf W_3$ 是单位矩阵，那就是点乘，如果是零矩阵，就是concat融合（ $b+[\mathbf w_1, \mathbf w_2]^T[\mathbf o_1, \mathbf o_2]$ ）

这个双线性融合和FM也有关联，FM，使用 $m$ 维的特征向量 $\mathbf x$ 建模二阶交叉，可以表示为 $\hat y = \sigma (b + \mathbf w^T \mathbf x + \mathbf x^T \mathcal{upper} (\mathbf P \mathbf P^T) \mathbf x)$

其中， $b\in R,\mathbf w \in R^{m \times 1}, \mathbf P \in R^{m \times d}$ ，其实FM是双线性融合的特例，当 $\mathbf o_1 = \mathbf o_2$

但是这么做有个缺点，当 $\mathbf o_1$ 和 $\mathbf o_2$ 维度较大时，例如1000维，双线性映射矩阵 $\mathbf W_3\in R^{1000 \times 1000}$ 参数量太大。

多头双线性融合

借鉴多头注意力的思想，将 $\mathbf o_1$ 和 $\mathbf o_2$ 拆分为 $k$ 个子空间 $\mathbf o_1 = [\mathbf o_{11}, \mathbf o_{12}, ..., \mathbf o_{1k}]$ $\mathbf o_2 = [\mathbf o_{21}, \mathbf o_{22}, ..., \mathbf o_{2k}]$ $k$ 是超参数，在各个子空间分别进行双线性映射 $\hat y = \sigma ( \sum_{j = 1} ^k BF(\mathbf o_{1j}, \mathbf o_{2j}))$ 这样就把参数量由 $d_1d_2$ 变为 $d_1d_2/k$