论文《Contrastive Learning for Sequential Recommendation》论文地址：h

论文地址：arxiv.org/abs/2010.14…

摘要

序列推荐经常因为数据稀疏性问题，导致很难学习到高质量的用户向量表示。论文引入对比学习，提出Contrastive Learning for Sequential Recommendation(CL4SRec).，不仅有下一个序列预测的优势，还利用对比学习框架从原始用户行为序列中获取自监督信号。另外论文提出3种构造自监督信号的数据增强方法，在4个公开数据集上面大量实验表明得到的用户表示更好。

简介

序列推荐任务能捕捉用户动态的兴趣，序列推荐的基本问题是从用户历史交互中学习到高质量的用户表示，因此主要研究工作都是通过更强大的序列模型来得到更好的用户表示。像RNN，Self-Attention能从用户行为中捕获更复杂的用户模式，还有GNN，能从用户序列中探索更复杂的物料转换模式。这些方法的尽管都是用序列预测方式，很容易遇到数据稀疏性问题。

最近自监督学习在表示学习领域有巨大突破，在CV、NLP，直接从未标记数据中抽取数据相关性。一个直接的做法是采用强大的序列模型像GPT，但是在推荐系统中不合适，2点原因

推荐系统通常没有大量的原料库用作预训练，推荐系统各个不同的任务并不共享相同的知识，这会限制预训练的应用
预测式的自监督学习的目标函数和序列推荐的目标函数几乎相同，在相同的数据上应用另外一个目标函数无法帮助用户进行表示学习

基于上述问题，自监督在推荐系统的研究较少。最近的研究试图从原始特征数据的内在结构中提取自监督信号，来增强特征表示。这些研究集中在提升物料表示的水平，如何提升用户表示的研究较少。

我们打算通过用户行为的自监督信号学习更好的用户表示，哪怕只有序列ID信息。模型包括传统的序列预测目标函数和对比学习目标函数。在对比学习的loss约束下，通过在用户序列上面进行不同视角的数据增强，最大化相同序列的不同视角在向量空间的一致性，来编码用户行为表示。此外还提出3种不同的数据增强方式来讲用户行为序列映射成行为序列的不同视角。总结如下：

提出新模型Contrastive Learning for Sequential Recommendation (CL4SRec),第一次将对比学习引入到序列推荐
提出3种不同的数据增强方法，包括裁剪（cropping），遮蔽（masking），重排序（reordering），构造用户行为序列的不同视角
与所有的baseline相比，提升巨大，在7.37%-11.02%

CL4SREC

符号标记和问题陈述

论文中向量用户小写加粗（e.g. $\mathbf{u,v}$ ），矩阵用大写加粗表示（e.g. $\mathbf{R}$ ）,矩阵 $\mathbf{R}$ 的第j行表示为 $\mathbf{R}_j^T$ ，使用花体字母表示集合（e.g. $\mathcal{U,V,A}$ ），使用 $\mathcal{U}$ 和 $\mathcal V$ 表示用户和物料的集合， $\vert \mathcal{U} \vert$ 和 $\vert \mathcal{V} \vert$ 表示用户和物料的数量，一个用户或者一个物料表示为 $u \in \mathcal{U}, v \in \mathcal{V}$ ，用户序列一般是按照时间顺序，因此表示一个用户序列为 $s_u = [v_1^{(u)}, v_2^{(u)}, ..., v_{\vert s_u \vert}^{(u)}]$ ，其中 $v_t^{(u)}$ 表示用户 $u$ 在时刻 $t$ 交互的行为物料， $\vert s_u \vert$ 表示用户 $u$ 的行为序列长度， $s_{u,t} = [v_1^{(u)}, v_2^{(u)}, ..., v_{t}^{(u)}]$ 表示用户在时刻 $t+1$ 之前的用户行为子序列。 $\mathcal A$ 表示增强（augmentations）集合。序列推荐任务就是预测在时刻 $\vert s_u \vert + 1$ 用户最可能交互的行为物料，表示如下 $v_u^* = \underset {v_i \in \mathcal V} {argmax} P(v_{\vert s_u \vert + 1}^{(u)} = v_i \vert s_u) \ \ \ \ \ \ \ \ \ \ (1)$

对比学习框架

数据增强模块

每个数据样本应用一个随机的数据增强方法，产生2个相关的新数据样本。如果两个新样本由同一个样本产生，被视为正样本对，如果是🈶不同的样本产生，视为负样本对。我们对每个用户序列 $s_u$ 使用2个随机的数据增强方法( $a_i \in \mathcal A, a_j \in \mathcal A$ )，产生两个新的用户序列 $s_u^{a_i}$ ， $s_u^{a_j}$ ，这两个新序列是用户行为的2个新视角。

用户表示编码

使用神经网络来编码增强后的用户行为序列，用户向量表示 $\mathbf{s}_u^{a} = f(s_u^{a})$ ，使用Transformer来表示用户行为序列。值得注意的是，SIMCLR使用了在 $f(\cdot)$ 之后使用了一个辅助的非线性映射，但是作者发现在推荐场景去掉这个辅助的非线性映射效果更好。

对比损失函数

使用对比损失函数来区分两个表示是否来自相同的用户历史序列，为达到这个目标，对比学习损失旨在最小化同一个用户不同增强序列的差异，并且最大化来自不同用户增强序列的差异。对于batch内的 $N$ 个用户 $u_1,u_2,...,u_N$ ，对每个用户使用两个随机的数据增强操作，会得到 $2N$ 个新序列 $[s_{u_1}^{a_i}, s_{u_1}^{a_j}, s_{u_2}^{a_i}, s_{u_2}^{a_j},..., s_{u_N}^{a_i}, s_{u_N}^{a_j}, ]$ ，对于每个用户， $(s_u^{a_i},s_u^{a_j})$ 是正样本对，其余 $2(N-1)$ 个序列是负样本集 $S^-$ ，使用点乘来衡量每个向量的相似度， $sim(\mathbf u,\mathbf v)=\mathbf u^T \mathbf v$ 。类似于softmax交叉熵损失定义，正样本对 $(s_u^{a_i},s_u^{a_j})$ 的损失函数 $\mathcal L_{cl}$ 表示如下 $\mathcal L_{cl} (s_u^{a_i},s_u^{a_j}) = - \log \frac {exp( sim(\mathbf{s}_u^{a_i},\mathbf{s}_u^{a_j}) )} { exp( sim(\mathbf{s}_u^{a_i},\mathbf{s}_u^{a_j}) ) + \sum_{s^- \in S^-} exp( sim(\mathbf{s}_u^{a_i},\mathbf s^- ) }\ \ \ \ \ \ \ \ \ \ (2)$

数据增强操作

介绍3种基本的数据增强操作，这些操作能构造同一个样本的不同视角，但是仍然能保持隐藏在用户序列中的主要模式。

物料裁剪(Item Crop)

随机裁剪在CV领域是一个常见的数据增强方法，经常从原始图像中随机创建一个子图像增强模型的泛化能力，我们在序列推荐的对比学习中引入。对于每个用户序列 $s_u$ ，随机选择子序列 $s_u^{crop} = [v_c,v_{c+1},...,v_{c+L_c-1}]$ ，子序列长度 $L_c=\lfloor \eta* \vert s_u \vert \rfloor$ ，这里省略了每个物料 $v$ 的上标 $u$ ，公式表示如下： $s_u^{crop} = a_{crop}(s_u) = [v_c,v_{c+1},...,v_{c+L_c-1}]\ \ \ \ \ \ \ \ \ \ (3)$ 物料裁剪的效果能从两方面解释，第一，提供了用户行为序列的一个局部视角，在不全面的用户信息下学习用户的泛化偏好。第二，在对比学习框架下，如果两个用户子序列没有交集，可以被视作下一个句子预测任务，促使模型预测用户偏好的改变。

物料遮蔽(Item Mask)

随机将输入的词遮蔽掉，也叫word dropout，在很多NLP任务中用于避免过拟合，像句子生成、语义分析、自动问答，受此启发，提出一种随机将行为物料遮蔽的数据增强方法。对于每个用户行为序列 $s_u$ ，随机遮蔽一定比例 $\gamma$ 的行为物料 $\mathcal T_{s_u} = (t_1,t_2,...,t_{L_m})$ ，长度 $L_m=\lfloor \gamma* \vert s_u \vert \rfloor$ ,如果一个行为物料被遮蔽，会被一个特殊的单词 $[mask]$ 替换掉，公式表示如下：

论文《Contrastive Learning for Sequential Recommendation》

摘要

简介

相关工作

序列推荐

自监督学习