DuAL:预测和对比,双辅助用于推荐

874 阅读4分钟
参与拿奖:本文已参与「新人创作礼」活动,一起开启掘金创作之路
论文题目:Predictive and Contrastive: Dual-Auxiliary Learning for Recommendation [1]
论文来源:arxiv2022
一、Motivation

The rich semantics reflected by social relationships and item categories, which lie in the recommendation data-based heterogeneous graphs, are not fully exploited.

在社会联系和物品种类中包含丰富的语义信息,但藏于基于数据推荐的异构图中的这些信息,还没有被完全探索。

The authors first quantitatively analyze the heterogeneous interaction data and find a strong positive correlation between the interactions and the number of user-item paths induced by meta-paths.

作者第一次量化分析了异构图中的交互数据,并且发现了交互记录与用户-商品的元路径的数量之间有强的正相关性。

image.png image.png

上图中,使用的是音乐领域的LastFM的数据集,UUA表示一条User-User-Artist的元路径[2],UAUA表示User-Artist-User-Artist的元路径[2],横坐标表示link-score,纵坐标表示用户与该元路径[2]最后一个元素交互的可能性。从图中可以看出当link-score越大时,用户与该元路径中[2]最后一个Artist交互的可能性越大。

image.png

如上图中的图(a),用户u1-u4与商品m1-m3构成了一个异构图的关系。元路径[2],这里以例子进行说明,例如UUM形式的元路径有u1-u2-m1,u2-u3-m2等。然后介绍通信矩阵[2],例如:

image.png 从u2经过元路径UUM到达m1的路径有两条,所以有:

image.png,其他的相似。

作责在此基础上,提出将上述所得进行标准化之后,可以得到link-score,就是将所有的值除以最大值,得到以下link-score。

image.png

二、Model

模型图的框架借鉴了CGC[3]的框架,该框架如下图所示:

image.png 模型样式还是典型的双塔结构,输入数据之后经过三个Encoder,其中粉色和绿色是两个不同的Encoder,中间蓝色部分是两边共享的,G是一个门控单元,最后经过两个不同的tower,得到不同的输出。

本文提出的模型图如下:

image.png

模型图采用的CGC[3]的框架,一共四部分输入,GUI是原始的用户-商品的二部图,ET和ES都是两个随机初始化的Embedding,用于使得输入产生歧义化。中间蓝色的部分使用的是同一个LightGCN,相当于一共使用了三个LightGCN[4]作为GNN encoder。接着将所得的表示经过拼接,再经过一个单层的FFN加softmax之后获得的表示进行对比学习,文中指出如果不存在元路径的连接边的权重(link-score)为0,且将其作为负样例,而具有最大连接边的权重(link-score)为1,将其作为正样例,进行对比学习。 与此同时,作者还将两边的输出分别用于计算推荐Loss和预测Loss,其中的推荐Loss参考了C. Chen等人2020发表的一篇论文[5],取消了采样这一过程。三个Loss如下所示:

image.png 这里的c+v与c-v都是用户设置的参数。

image.png 直接使用的均方误差计算预测损失。

image.png 直接使用的InfoNCE计算对比损失。

image.png

三、Data & Experments

image.png 数据集使用了三个公开的数据集,LastFM[6],Yelp[7],Douban Book[8]

四、Performance

image.png 从表现结果上看,DuAL在三个数据集上都取得了SOTA的效果。

五、Ablaton Study

image.png 消融实验做了关于不使用预测和对比任务、不使用对比任务的实验,通过实验结果可以看出,预测和对比模块对于模型的影响较大。

image.png 与此同时,作者还做了使用不同的模型作为GNN encoder的效果,可以看出使用LightGCN效果时最佳的。

image.png 同时作者还做了使用不同的元路径后的实验,可以看出元路径的选择对于实验结果的影响较大。

六、Conclusion

本文通过捕捉元路径下隐藏的信息,提出了双辅助任务的推荐模型DuAL,该模型最大的亮点在于两个地方,第一个就是通过元路径形成对比与预测任务,第二个就是推荐任务不需要采样。但模型存在的缺点也很明显,就是如何选择最优的元路径,这对于该模型的影响较大。

七、References

[1] Tao Y, Gao M, Yu J, et al. Predictive and Contrastive: Dual-Auxiliary Learning for Recommendation[J]. arXiv preprint arXiv:2203.03982, 2022.

[2] Sun Y, Han J, Yan X, et al. Pathsim: Meta path-based top-k similarity search in heterogeneous information networks[J]. Proceedings of the VLDB Endowment, 2011, 4(11): 992-1003.

[3] Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 269-278.

[4] He X, Deng K, Wang X, et al. Lightgcn: Simplifying and powering graph convolution network for recommendation[C]//Proceedings of the 43rd International ACM SIGIR conference on research and development in Information Retrieval. 2020: 639-648.

[5] Chen C, Zhang M, Zhang Y, et al. Efficient neural matrix factorization without sampling for recommendation[J]. ACM Transactions on Information Systems (TOIS), 2020, 38(2): 1-28.

[6] The Last.fm Dataset | Million Song Dataset

[7] Yelp Dataset

[8] Douban Book