论文题目:Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction
来源:CIKM2023
代码:GDCN, GDCNv2
一、Motivation
当前针对特征交叉建模的方法主要存在以下三个挑战:
- 当前的方法虽然能够捕获用户交互历史中高阶的交叉特征关系,但是他们的表现依赖于特征交互的数量,也即随着特征交互的增加而增加;
- 当前的方法缺乏对于所捕获的高阶特征关系的可解释性,限制了预测结果的可解释性;
- 当前的方法存在参数冗余的情况;
本文针对DCNv2进行了改进,主要是引入了gate机制来生成特征权重,用于剔除冗余特征,然后引入了FDO方法来学习filed的隐藏维度;
二、Model
- 本文模型如上所示,其提出的gate部分计算如下所示:
-
该gate网络就是一个简单的不带偏差的线性层+sigmoid激活函数
-
针对FDO方法,作者主要参考了论文FmFM,简单来说是先试用全量特征和静态16维度的设置训练一个基础网络,然后使用PCA进行降维,选择重要的topk维度的feature用于二次优化
三、Data&Experiments
使用了五个数据集,分别是Criteo、Avazu、Malware、Frappe、ML-tag
四、Performance
观察上面两张表,可以发现以下现象:
- 提出的方法有效,超越了现阶段所有用于高阶特征交互建模的模型;
- 查阅了DCNv2论文的实验结果发现,在本文中所有基线模型效果都比DCNv2论文中报告的要高,这可能是用了什么trick;
五、Ablation Study
因为论文中提出的框架比较简单,去掉gate(DCNv2)与GDCN本身就是一组消融实验 在附录,作者针对FDO中的D、K进行了实验,实验浮动不大,表明了该方法的稳定性
六、Conclusion
实验结果表明了方法的优越性,但是我在这里做了一些改进,主要改进在特征交叉和gate部分:
-
特征交叉部分,因为在运算过程中存在,=, 因此,我改进了计算的次数,也即将其变为logl,l表示交叉的层数,这样可以大幅度缩减计算的时间;
-
在特征筛选部分,只是在最后一层进行特征过滤,这样可以提高运算速度;
改进的代码参看:GDCNv2
实验代码参看:exp
实验结果如下:
七、References
[1] Wang, Fangye, et al. "Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction." Proceedings of the 32nd ACM International Conference on Information and Knowledge Management. 2023.
[2] Yang Sun, Junwei Pan, Alex Zhang, and Aaron Flores. 2021. FM2: Field-matrixed factorization machines for recommender systems. In Proceedings of the Web Conference 2021. 2828–2837.