参与拿奖:本文已参与「新人创作礼」活动,一起开启掘金创作之路
论文题目:Pre-training User Representations for Improved Recommendation[1]
发表会议:AAAI2021
一、Motivation
同一用户在不同领域购买记录如果好好加以利用可以在一定程度上缓解数据稀疏的问题,进而更加有效地捕捉用户的兴趣,从而提升推荐效果。
二、Model
将BERT结构用于推荐的最早一篇文章是2019年发表在CIKM上的BERT4Rec[2],BERT结构如下图所示:
U-BERT模型由预训练和微淘两部分组成,预训练模型如下图所示:
该模型主要由两部分表示:User Encoder 和 Review Encoder,其中Review Encoder的输入是以下三部分的加和
1.Token Embeddings, (1, n, 768) ,词的向量表示
2.Segment Embeddings, (1, n, 768),辅助BERT区别句子对中的两个句子的向量表示
3.Position Embeddings ,(1, n, 768) ,让BERT学习到输入的顺序属性
Review Encoder的主要任务是掩盖词预测,主要是预测一些评价的关系词,这些词是预先定义好的。
微调模型如下图所示:
微调模型在预训练模型上加了两部分,Item Encoder和 Review Co-Matching Layer,后者主要是为了通过匹配相似的评论来更好的获取用户的隐藏兴趣。
本文核心是引入了不同领域的评论信息,来提升推荐效果,同一年另外一篇发表在TKDE的文章的UPRec[3],模型如下图所示:
UPRec没有引入新的信息,反而是在预训练任务中提出了一个User-Aware的任务,该任务包含两个任务,用户画像和社会关系预测,从而使得预训练模型捕捉更多有意义的信息。
三、Data & Experments
四、Performance
作者使用的MSE作为评价指标,所以结果越低越好,因此可以看出U-BERT在多个数据集上都取得了SOTA的效果。
五、Ablation Study
实验表明:去掉task1比去掉task2效果差的原因是任务一制定了一个严格的约束条件,只预测所有领域中共享的观点词,从而预测更多的用户嵌入。然而,当聚合评论中的所有词的时候,独立的任务2将不可避免地把一些领域的噪声引入到学习的用户嵌入中。
六、Conclusion
In the pre-training stage, U-BERT utilizes two self-supervision tasks to leverage the abundant reviews in other domains to model the users; In the fine-tuning stage, U-BERT applies the learned user knowledge to improve the recommendation by incorporating the new item encoder and review co-matching layer.
U-BERT引入了新的评论信息,并在微调阶段引入Item-Encoder与评论匹配层,说明了微调阶段可以在预训练阶段模型的基础上添加新的模型来提高模型效果。
七、References
[1]Qiu Z, Wu X, Gao J, et al. U-BERT: Pre-training user representations for improved recommendation[C]//Proc. of the AAAI Conference on Artificial Intelligence. Menlo Park, CA, AAAI. 2021: 1-8.
[2]Sun F, Liu J, Wu J, et al. BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer[C]//Proceedings of the 28th ACM international conference on information and knowledge management. 2019: 1441-1450.
[3]Xiao C, Xie R, Yao Y, et al. UPRec: User-Aware Pre-training for Recommender Systems[J]. arXiv preprint arXiv:2102.10989, 2021.