GDCN:使用更深,更轻量级的交叉网络用于CTR预估

661 阅读2分钟

论文题目:Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction [1]^{[1]}

来源:CIKM2023

代码:GDCN, GDCNv2

一、Motivation

当前针对特征交叉建模的方法主要存在以下三个挑战:

  • 当前的方法虽然能够捕获用户交互历史中高阶的交叉特征关系,但是他们的表现依赖于特征交互的数量,也即随着特征交互的增加而增加;
  • 当前的方法缺乏对于所捕获的高阶特征关系的可解释性,限制了预测结果的可解释性;
  • 当前的方法存在参数冗余的情况;

本文针对DCNv2进行了改进,主要是引入了gate机制来生成特征权重,用于剔除冗余特征,然后引入了FDO方法来学习filed的隐藏维度;

二、Model

image.png

  • 本文模型如上所示,其提出的gate部分计算如下所示:

image.png

  • 该gate网络就是一个简单的不带偏差的线性层+sigmoid激活函数

  • 针对FDO方法,作者主要参考了论文FmFM[2]^{[2]},简单来说是先试用全量特征和静态16维度的设置训练一个基础网络,然后使用PCA进行降维,选择重要的topk维度的feature用于二次优化

三、Data&Experiments

使用了五个数据集,分别是Criteo、Avazu、Malware、Frappe、ML-tag

image.png

四、Performance

image.png

image.png 观察上面两张表,可以发现以下现象:

  • 提出的方法有效,超越了现阶段所有用于高阶特征交互建模的模型;
  • 查阅了DCNv2论文的实验结果发现,在本文中所有基线模型效果都比DCNv2论文中报告的要高,这可能是用了什么trick;

五、Ablation Study

因为论文中提出的框架比较简单,去掉gate(DCNv2)与GDCN本身就是一组消融实验 在附录,作者针对FDO中的D、K进行了实验,实验浮动不大,表明了该方法的稳定性

六、Conclusion

实验结果表明了方法的优越性,但是我在这里做了一些改进,主要改进在特征交叉和gate部分:

  • 特征交叉部分,因为在运算过程中存在x2=x×xx^{2}=x \times x,x6=x3×x3x^{6}=x^{3} \times x^{3} =x2×x2×x2x^{2} \times x^{2} \times x^{2}, 因此,我改进了计算的次数,也即将其变为logl,l表示交叉的层数,这样可以大幅度缩减计算的时间;

  • 在特征筛选部分,只是在最后一层进行特征过滤,这样可以提高运算速度;

改进的代码参看:GDCNv2

实验代码参看:exp

实验结果如下:

image.png

七、References

[1] Wang, Fangye, et al. "Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction." Proceedings of the 32nd ACM International Conference on Information and Knowledge Management. 2023.

[2] Yang Sun, Junwei Pan, Alex Zhang, and Aaron Flores. 2021. FM2: Field-matrixed factorization machines for recommender systems. In Proceedings of the Web Conference 2021. 2828–2837.