论文题目:Self-Attentive Sequential Recommendation[1]
论文来源:ICDM2018
Paper-with-code 代码
一、Motivation
MC-based methods perform best in extremely sparse datasets, where model parsimony is critical, while RNNs perform better in denser datasets where higher model complexity is affordable. The goal of our work is to balance these two goals, by proposing a self-attention based sequential model (SASRec) that allows us to capture long-term semantics (like an RNN), but, using an attention mechanism, makes its predictions based on relatively few actions (like an MC).
基于马尔科夫链的方法在极度稀疏的数据集上表现最好,基于循环神经网络的模型在密集的数据集上表现更好。作者为了获得两种效果,提出了基于自注意力[2]的序列推荐模型SASRec,可以像RNN一样捕捉长期的语义,但是使用注意力机制就意味着其预测使用的是相关的少部分行为(像马尔科夫链)。
二、Model
模型的简化范式如上图所示,主要由四部分构成,embedding层主要包括获取item embedding和position embedding;self attention层就是一个单头的注意力网络;接着是两层的前馈神经网络;最后是一个预测层。
embedding层,输入为长度为n的用户行为序列,输出为n*d的嵌入表示,d表示隐藏特征数
self attention层,输入三部分的嵌入表示,输出经过注意力层所得表示
FFN层,输入为注意力层的输出,输出为经过两层FFN所得表示
最终的预测层,将经过FFN所得输出作为输入,然后使用下列公式进行预测
三、Data & Experments
数据集使用了公开的四个数据集,Beauty[3],Games[3],Steam[4],MovieLens-1M[5]。
四、Performance
五、Ablaton Study
从上表可以看出,在注意力机制中各个模型部件对模型效果的影响比较大的。
六、Conclusion
本篇文章是第一篇将注意力机制引入推荐系统的文章,实验结果表明了其有效性,证明了注意力机制在捕捉序列间关系的有效性。
七、References
[1] Kang W C, McAuley J. Self-attentive sequential recommendation[C]//2018 IEEE International Conference on Data Mining (ICDM). IEEE, 2018: 197-206.
[2] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez,L. Kaiser, and I. Polosukhin, “Attention is all you need,” in NIPS, 2017.
[3] Amazon