CAFE:粗粒度到细粒度稀疏序列推荐论文题目：Coarse-to-Fine Sparse Sequential Reco

论文题目：Coarse-to-Fine Sparse Sequential Recommendation^[1]

论文来源：SIGIR2022

一、Motivation

Self-attentive methods have proven effective at capturing short-term dynamics and long-term preferences. Despite their success, these approaches still struggle to model sparse data, on which they struggle to learn high-quality item representations.

自注意力方法在捕捉短期动态和长期偏好是有效的。但是这些现有的方法依旧面临数据稀疏的问题，因此不能学习到高质量的表示。

We propose to model user dynamics from shopping intents and interacted items simultaneously。

作者提出从购买意图和交互商品双管齐下对用户动态行为建模，提出CAFE模型。

如上图所示，从粗粒度角度考虑用户的购买意图（图中指商品类别），细粒度考虑用户与商品的交互序列，两方面出发用于建模。

Amazon^[2]经过BERT4Rec前20 step的训练之后，所得结果表明该模型更加关注于稀疏数据集上的最近交互的商品，在稠密数据集上更加关注于非最近的交互商品。表明了最近的商品对于稀疏数据来说很重要；自注意力模型混合了长期和动态短期的知识，但是对于在稀疏数据集中依然不能很好地捕捉用户的长期兴趣。

上图展示了前500个最频繁出现的商品与前500个最不频繁出现的商品的embedding在经过投影之后的图像。从上图可以得知对于频繁出现的商品。观察可以发现，频繁的商品集中，相同的intent通常相互接近，不频繁的商品集中，大部分intent都趋于更加分散。可以获知，模型把频繁数据集表示得好，而对于不频繁得数据集就表示得不好；意图可以提供有用的先验知识，因为这些经过足够训练的商品表示对于不同的intent形成了不同的簇（易于区分）。

二、Model

模型的输入为两部分，item序列和intent序列（Amazon^[2]数据集使用的商品类别、Tmall^[3]数据集使用的卖家）。

Embedding层：分别使用两个embedding用于item和intent，其输出为：

Encoder层：分别使用Transformer^[4]和SASRec^[5]对item和intent进行编码,这里主要介绍item encoder。

作者将上式中的exp(w_ij)改为了exp(w_ij+ln $\theta$ _ij)，ln $\theta$ _ij通过从H^l_i和H^l_j中学习获得。

其中，H⁰_i=e_i+p_i。

最终将获得的两个表示进行相加可以获得最终用于预测的表示。

Predict层：使用MF计算encoder输出与embedding的相关性。

Loss函数：因为有两个embedding和两个encoder，采用的是joint-learning的训练方式。

三、Data & Experments

Amazon^[2]，Tmall^[3]

四、Performance

实验结果表明CAFE的有效性，其提升的margin相对于baseline比较大，消融实验对这一现象进行了一些细粒度的分析。

五、Ablaton Study

CAFE=SASRec+(1)+(2)+(3)+(4)，其中(1)表示的是混合intent embedding到item embedding中（参看FDSA^[6]），(2)表示的是对intent单独建模，(3)表示的是使用局部自注意力机制用于item encoder（参看Locker^[7]），(4)表示的是使用商品和与其相关的意图的联合概率分布进行推理。

从图中可以看出，对于intent进行独立建模之后，效果提升了181%，之后单独加上局部注意力，效果提升3.4%；之后单独加上联合概率分布推理，效果提升39.7%；最后加上这两部分成为CAFE，效果提升40.8%。可见(2)和(4)对与模型效果的影响巨大，从而说明了对于intent单独建模的有效性。

六、Conclusion

自注意力模型在序列推荐上表现优异。依然面临数据稀疏的问题，特别是对于那些曝光少（交互历史少）的商品。在引入辅助信息的时候可以帮助模型学到关于不频繁交互商品的更好表示。CAFE展示了该方法的有效性。

七、References

[1] Li, J., Zhao, T., Li, J., Chan, J., Faloutsos, C., Karypis, G., ... & McAuley, J. (2022). Coarse-to-Fine Sparse Sequential Recommendation. arXiv preprint arXiv:2204.01839.

[2] Amazon

[3] Tmall

[4] Ashish Vaswani, Noam M. Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones,Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. ArXiv abs/1706.03762 (2017).

[5] Wang-Cheng Kang and Julian McAuley. 2018. Self-Attentive Sequential Recommendation. 2018 IEEE International Conference on Data Mining (ICDM) (2018),197–206.

[6]Tingting Zhang, Pengpeng Zhao, Yanchi Liu, Victor S. Sheng, Jiajie Xu, Deqing Wang, Guanfeng Liu, and Xiaofang Zhou. 2019. Feature-level Deeper Self-Attention Network for Sequential Recommendation. In IJCAI.

[7] Zhankui He, Handong Zhao, Zhe Lin, Zhaowen Wang, Ajinkya Kale, and Julian McAuley. 2021. Locker: Locally Constrained Self-Attentive Sequential Recommendation. Proceedings of the 30th ACM International Conference on Information & Knowledge Management (2021).

CAFE:粗粒度到细粒度稀疏序列推荐

论文题目：Coarse-to-Fine Sparse Sequential Recommendation[1]