GDCN:使用更深，更轻量级的交叉网络用于CTR预估论文题目：Towards Deeper, Lighter and I

论文题目：Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction $^{[1]}$

来源：CIKM2023

代码：GDCN, GDCNv2

一、Motivation

当前针对特征交叉建模的方法主要存在以下三个挑战：

当前的方法虽然能够捕获用户交互历史中高阶的交叉特征关系，但是他们的表现依赖于特征交互的数量，也即随着特征交互的增加而增加；
当前的方法缺乏对于所捕获的高阶特征关系的可解释性，限制了预测结果的可解释性；
当前的方法存在参数冗余的情况；

本文针对DCNv2进行了改进，主要是引入了gate机制来生成特征权重，用于剔除冗余特征，然后引入了FDO方法来学习filed的隐藏维度；

二、Model

本文模型如上所示，其提出的gate部分计算如下所示：

该gate网络就是一个简单的不带偏差的线性层+sigmoid激活函数
针对FDO方法，作者主要参考了论文FmFM $^{[2]}$ ，简单来说是先试用全量特征和静态16维度的设置训练一个基础网络，然后使用PCA进行降维，选择重要的topk维度的feature用于二次优化

三、Data&Experiments

使用了五个数据集，分别是Criteo、Avazu、Malware、Frappe、ML-tag

四、Performance

观察上面两张表，可以发现以下现象：

提出的方法有效，超越了现阶段所有用于高阶特征交互建模的模型；
查阅了DCNv2论文的实验结果发现，在本文中所有基线模型效果都比DCNv2论文中报告的要高，这可能是用了什么trick；

五、Ablation Study

因为论文中提出的框架比较简单，去掉gate（DCNv2）与GDCN本身就是一组消融实验在附录，作者针对FDO中的D、K进行了实验，实验浮动不大，表明了该方法的稳定性

六、Conclusion

实验结果表明了方法的优越性，但是我在这里做了一些改进，主要改进在特征交叉和gate部分：

特征交叉部分，因为在运算过程中存在 $x^{2}=x \times x$ , $x^{6}=x^{3} \times x^{3}$ = $x^{2} \times x^{2} \times x^{2}$ ，因此，我改进了计算的次数，也即将其变为logl，l表示交叉的层数，这样可以大幅度缩减计算的时间；
在特征筛选部分，只是在最后一层进行特征过滤，这样可以提高运算速度；

改进的代码参看：GDCNv2

实验代码参看：exp

实验结果如下：

七、References

[1] Wang, Fangye, et al. "Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction." Proceedings of the 32nd ACM International Conference on Information and Knowledge Management. 2023.

[2] Yang Sun, Junwei Pan, Alex Zhang, and Aaron Flores. 2021. FM2: Field-matrixed factorization machines for recommender systems. In Proceedings of the Web Conference 2021. 2828–2837.

GDCN:使用更深，更轻量级的交叉网络用于CTR预估

论文题目：Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction [1]^{[1]}[1]