Pre-train4Rec:预训练用于推荐系统

1,204 阅读11分钟
论文题目:Pre-training for Recommender System
论文来源:课程设计

一、引言

随着网络的迅速发展,用户面临着信息过载的问题,大量的在线商品信息使得用户难以做出有效的决策。推荐系统的出现可以缓解该问题。推荐系统是一种向用户呈现个性化信息的过滤系统,不仅可以改善用户体验,还能因此提高商业利益。

推荐系统在现实生活中通常会面临数据稀疏的问题。例如推荐系统在面临新用户或者新商品时会发生冷启动问题[1]。预训练模型通常会在无标签的数据上进行训练,以学习普遍的语言表示,然后在下游任务中获得知识迁移,从而可以在一定程度上缓解数据稀疏的问题。

在推荐系统的背景下,可以将使用预训练机制来改善推荐准确率的模型分为两类:基于特征的模型和基于微调的模型。基于特征的模型使用预训练从边缘信息中获得特征。基于微调的模型利用用户与商品的交互记录来预先训练一个深度可迁移神经网络模型,然后利用不同的下游任务来对预训练模型参数进行微调。

image.png

推荐系统中使用预训练的好处可以总结为以下两点:(1)预训练任务能够更好地探寻用户与商品的交互信息从而更好地捕捉用户的兴趣。(2)预训练可以帮助从不同的任务中整合知识以获得更加普遍的用户与商品的表示,这能够进一步适应不同的推荐场景。

二、研究现状

1)基于特征的模型

基于特征的模型主要的特点是引入了辅助信息(例如商品属性、知识图谱或者社交网络),使用预训练模型从辅助信息中直接学习用于丰富用户和商品信息的表示。与协同过滤不同,协同过滤在用户与商品的交互记录中学习表示,而基于特征的模型专注于使用预训练模型从已经存在的大量的可以使用的特征中学习,并将这些特征整合到下游的推荐任务中。通过将丰富的辅助信息与用户商品的交互信息进行结合,基于特征的模型能够缓解潜在的数据稀疏的问题。基于特征的推荐模型通过多样化的预训练模型预先处理辅助信息来获取用户与商品的嵌入表示,然后将这些嵌入表示整合到下游的推荐任务中,以此来丰富用户和商品的表示,从而进行更好地个性化推荐。

因为不同的类型的辅助信息需要不同的预训练模型来进行训练。根据外部资源信息的类型,可以将基于特征的预训练模型划分为以下几种,包括基于内容的推荐,基于知识图谱的推荐,以及社会推荐模型。

a)基于内容的推荐

基于内容的推荐假设用户倾向于购买与已经购买过的商品相似的商品。因此,对于基于内容的推荐系统来说,将商品信息编码成更具有象征意义的低维度的表示是非常重要的。

b)基于知识图谱的推荐

基于知识图谱的推荐引入知识图谱作为补充信息来更好地捕捉用户和商品的特征。一个知识图谱是一个结构图,包含大量的事实信息以及用户、商品与其他联系实体之间的连接信息。大量的辅助信息,例如用户画像、商品属性或者交叉领域的商品联系,都可以被整合到知识图谱中。因此,知识图谱能够通过捕捉本质的知识和提供推荐结果的可解释性来帮助推荐系统。

c)基于社会联系的推荐

社会推荐是一种使用社会联系作为额外的补充输入的推荐方法,与整合用户和商品的多样化信息的知识图谱不同,社会关系图专注于对用户间的关系进行建模。同性质理论表明,用户的偏好类似于其社交朋友或受其社交朋友的影响。.与基于知识图谱的推荐相似,许多社会推荐模型寻求整合预先训练的社交网络嵌入,这表明用户受其朋友影响的程度。

2)基于微调的模型

用于推荐的微调模型首先在大规模的预训练数据上进行预训练。预训练好的模型会迁移到下游任务中,使用少量的数据来对已有的模型参数进行微调。这种微调的范式在其他领域展示了其有效性。根据模型的结构,可以将现有的模型分为两类:浅层的神经网络和深层的残差神经网络。已经存在的深层神经神经网络可以进一步分为基于迁移双向编码表示(Bidirectional Encoder Representations from Transformers,BERT)的推荐模型和参数有效的预训练卷积神经网络。

a)浅层神经网络

最初的工作尝试通过浅层的神经网络作为基础模型来获取知识迁移,例如浅层的多层感知机,循环神经网络。 Hu等人[2]尝试通过交叉领域的知识共享来提高推荐效果。他们在一个多层感知机上进行了一个基线实验,其中多层感知机与用户和商品嵌入在原始领域。用户嵌入到目标领域。实验结果表明这种简单的方法不能在推荐领域获得显著的提升。实验的最终结果表明模型结果与预训练任务需要详细地设计以至于能够在微调模型中获得有效的知识迁移。

b)基于BERT的模型

为了捕捉动态的用户偏好,许多研究尝试探索基于时序的用户序列,主要表现为基于会话的推荐。与目标在于词序的自然语言处理相似,基于会话的推荐在分析商品序列时,将序列信息加入考虑。

c)参数有效的预训练模型

预训练机制能够使得模型可以从用户的行为历史中通过自监督学习的方法捕捉用户的表示。实验结果表明这样用于推荐能够获得显著的提升。然而,为不同的任务分别微调模型在计算上和存储上是昂贵的。

为了解决这个问题,Yuan等人[3]提出了参数有效学习迁移结构(parameter-efficient transfer learning architecture,PeterRec),在微调时使用称为模型补丁的嫁接神经网络,通过将模型补丁插入到预训练模型,微调模型能够保证所有预训练的参数不变。例如图三所示。PeterRec是一种扩张卷积层,并且每两个扩张卷积层之间使用一个残差连接。与其他预训练模型相似,PeterRec使用掩盖商品预测来进行预训练。在微调的时候,将模型补丁(一个双层的残差卷积网络),插入到原始扩张卷积层的周围。预训练的参数在不同的任务中共享。只有模型补丁的参数会被微调。为了加快微调的速度和最小化参数的数目,模型补丁块被设计成瓶颈的结构。特别的有,第一个卷积层将k维的通道投影到d(d远小于k)维向量上,并且第二层将其映射会原始的维度。这样,插入的参数会比原先预训练模型的参数减少10%。实验结果表明预训练的PeterRec对于多种下游任务是有效的,包括用户画像预测和最高k个推荐。而且,它能够在遇到冷启动问题时获得明显的效果,这证明了在推荐系统中预训练模型用于知识迁移的有效性。

三、未来方向

1)挑战与方向

a)冷启动

协同过滤推荐系统主要依赖于用户的历史交互数据,并且会遭遇冷启动问题。为了缓解这个问题,一些研究工提出使用辅助信息,例如用户画像和商品属性来丰富用户与商品的表示。除此之外,还有一些使用更加高效的学习机制来缓解对数据的重度依赖,例如小样本学习。在推荐中,预训练模型能够学习大规模其他领域与稀疏的目标领域的共享信息的可迁移的表示,从而用于冷启动问题。例如,如果一个用户在目标领域中是冷启动的,在一般领域中预训练用户的表示是有用的。如果一个商品是冷启动的,可以通过外部信息的预训练表示来推断该商品的表示

b)提高知识的预训练

知识图谱能够提供丰富的领域知识、世界知识和常识知识用于推荐。因此,通过在推荐中引入知识图谱,用户偏好和商品之间的联系能够被更加准确地捕捉。一些工作直接考虑将外部结构知识放入到预训练模型中用于推荐。实际上,许多知识增强的预训练语言模型 已经表明了将结构化知识混合到预训练模型中能够显著地提高原始模型的表现。知识信息可以帮助模型更好地学习用户和商品的表示,并且借此来提高推荐的表现。

c)提高社会联系的预训练

社会关系为个性化推荐提供了一个可能的视角。有联系的用户更有可能分享类似的偏好。预先训练好的模型能够熟练地从用户的历史交互记录中捕捉到用户的兴趣。因此,用户之间的社会关系可以被看作是用户与商品之间的元关系。交互序列之间的元关系,也就是说,紧密联系的用户的交互序列被鼓励分享类似的表示。即密切联系的用户的交互序列被鼓励分享类似的表征。在此基础上,可以提出序列级的预训练任务来帮助模型产生更具表现力的用户/项目表征。另一个可能的方向是采用社会关系增强的预训练模型来解决用户冷启动问题。社会关系可以为用户的兴趣提供线索。然而,在预训练过程中,如何充分利用邻近用户的丰富信息仍然是一个挑战。

d)预训练任务

目前,大部分的深度微调方法都依赖于MIP任务来预训练的模型。而这些工作的重点是从用户的历史连续记录中提取用户兴趣。然而,受限于GPU的计算能力和内存,只有最近的交互纪录,这些纪录代表了最近的用户偏好,可以被推荐模型所利用。此外。MIP只能利用顺序数据,而在现实世界的场景中通常有丰富的异质信息。因此,设计新的自我监督的预训练任务对于充分利用大规模的异质信息是非常重要的。

e)模型压缩

预先训练好的模型可以用于下游的各种任务,但是,它们的高计算复杂度使其很难应用于到现实世界中。此外,对每个下游任务单独进行微调是相当耗时和耗内存的。如何实现快速有效的知识转移仍然是一个迫切需要解决的问题。

四、参考文献

[1] Gope J, Jain S K. A survey on solving cold start problem in recommender systems[C]//Proceedings of the 2017 International Conference on Computing, Communication and Automation (ICCCA). IEEE, 2017: 133-138.

[2] Hu G, Zhang Y, Yang Q. Conet: Collaborative cross networks for cross-domain recommendation[C]//Proceedings of the 27th ACM international conference on information and knowledge management. 2018: 667-676.

[3] F. Yuan, X. He, A. Karatzoglou, and L. Zhang, “Parameter-efficient transfer from sequential behaviors for user modeling and recommendation,” in Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval, 2020, pp. 1469–1478