推荐系统task04-特征交叉及Wide&Deep系列排序模型
一、特征交叉模型
(一)FM(Factorization Machine)
- 核心思想:针对稀疏数据下特征组合难学习的问题,引入隐向量对特征进行表示,通过向量内积计算特征交叉的权重,高效挖掘二阶特征交互,解决传统线性模型无法自动捕捉特征关联的痛点 。
- 应用场景:在点击率预估等推荐场景中,对稀疏特征(如用户标签、商品属性)的交叉处理效果显著,为后续复杂模型奠定基础。
(二)PNN(Product-based Neural Network)
- 核心思路:聚焦特征交叉的 “乘积” 操作,构建内积、外积等乘积层,将特征交叉从简单线性组合拓展到非线性空间,强化特征交互的表达能力,让模型学习到更复杂的关联模式 。
- 特点:强调特征交叉的多样性,通过不同乘积方式挖掘特征间潜在关系,但计算复杂度相对较高,需在表达力和效率间权衡。
(三)DCN(Deep & Cross Network)
- 关键设计:设计交叉网络(Cross Network),通过显式构造多层特征交叉,每一层基于前一层输出迭代生成高阶交叉特征,与深度网络(Deep Network)并行,既保留显式交叉的清晰路径,又结合深度网络的泛化能力 。
- 优势:能更高效、有层次地挖掘高阶特征交互,在金融、电商推荐中,对复杂业务逻辑下的特征关联捕捉效果较好,提升推荐精准度。
(四)AutoInt(Automatic Feature Interaction)
- 创新点:引入自注意力机制(Self-Attention)实现自动特征交叉,模型根据注意力权重动态聚焦重要特征交互,无需人工设计交叉方式,适配多样推荐场景下灵活的特征关系挖掘 。
- 价值:降低特征工程依赖,让模型自主学习特征交互模式,尤其在用户行为复杂、特征维度多变的场景(如社交推荐),展现出自适应挖掘交互的能力。
(五)FiBiNet(Feature Importance and Bilinear feature Interaction Network)
- 独特之处:关注特征重要性,设计 Squeeze-Excitation 结构衡量特征权重,同时结合双线性交互(Bilinear Interaction)细化特征交叉,区分不同特征对推荐结果的贡献,优化交叉质量 。
- 实践意义:在电商推荐等场景,能精准捕捉 “用户偏好 - 商品属性” 的关键交互,提升推荐的个性化与准确性,让推荐更贴合用户真实需求。
二、Wide&Deep 系列模型
(一)Wide&Deep
- 核心框架:由 “Wide” 线性层(处理显式、高频特征交叉,保留模型 “记忆性” )和 “Deep” 深度神经网络(挖掘隐式、低频特征交互,赋予 “泛化性” )组成,双路并行互补,平衡推荐的精准与覆盖 。
- 经典应用:在 Google Play 应用推荐中验证有效性,为后续混合架构推荐模型提供基础范式,适合需要兼顾用户历史偏好与潜在兴趣的场景。
(二)NFM(Neural Factorization Machine)
- 改进方向:基于 FM 拓展,引入神经网络处理特征交叉,用多层感知机(MLP)替换 FM 的简单内积,将二阶交叉特征进一步映射到高维空间,强化非线性交互表达,弥补 FM 表达能力有限的问题 。
- 适用场景:在用户行为丰富、特征交互复杂的推荐场景(如短视频推荐),能更好挖掘 “用户行为 - 内容属性” 的深层关联,提升推荐质量。
(三)AFM(Attentional Factorization Machine)
- 关键创新:为 FM 的特征交叉引入注意力机制,给不同二阶交叉特征分配动态权重,突出对推荐结果影响大的交互,让模型更聚焦关键特征关系,提升交叉特征利用效率 。
- 价值体现:在广告推荐等场景,可精准识别 “用户画像 - 广告内容” 的有效交互,优化广告投放效果,减少无效推荐,提升 ROI(投资回报率)。
(四)DeepFM(Deep Factorization Machine)
- 架构融合:整合 FM 的二阶交叉能力与深度网络的高阶交叉能力,共享输入特征,无需人工特征工程,让线性交叉与深度交叉协同工作,同时挖掘显式与隐式特征交互,简化模型设计流程 。
- 实践优势:在金融信贷推荐、电商商品推荐等场景广泛应用,能高效处理多维度特征,平衡模型复杂度与推荐效果,成为工业级推荐系统的常用模型。
(五)xDeepFM(eXtreme Deep Factorization Machine)
- 突破点:改进 DCN 的交叉方式,提出 Compressed Interaction Network(CIN),更高效地进行显式高阶特征交叉,与深度网络结合,在显式交叉的深度和效率上优化,解决 DCN 交叉层可能存在的信息损失问题 。
- 应用场景:在对特征交互深度要求高的推荐场景(如长视频推荐的多维度用户兴趣挖掘),能更细致捕捉 “用户历史 - 内容标签 - 场景属性” 的复杂关联,提升推荐的精准度与多样性。