【论文学习】PURE原文链接简介近几十年来，推荐系统在电子商务的多个领域都很流行。然而，现有的大多数推荐系统设计都想

简介

近几十年来，推荐系统在电子商务的多个领域都很流行。然而，现有的大多数推荐系统设计都想当然地采用了以下两个假设:

未观察到的用户与项目之间的交互(即未标记的用户-项目元组)通常被标记为负样本;
观察到的用户-项目及其交互行为代表真实的相关性分布。

然而，这些假设对于现实世界的推荐系统通常是不成立的。

例如：在第一个假设中，假设如果𝑖与𝑢有交互，而𝑗没有交互，则项目𝑖对用户𝑢比项目𝑗更相关。这个假设并不一定是正确的，因为项目𝑗和用户𝑢之间缺少交互可能是因为项目𝑗和用户𝑢之间缺乏曝光，而不是𝑢对𝑗不感兴趣。也就是说：未标记的用户-项目对可能是正样本，也可能是负样本。因此，在训练过程中简单地将未标记元组作为负样本不可避免地会降低模型的性能。

基于这个情况，这篇文章开发了一个新框架，该框架通过训练一个无偏见的 positive-unlabeled（PU）鉴别器来区分真正相关的用户-项目对和不相关的用户项目对，还包括一个学习潜在用户-项目连续分布的生成器。框架中使用了生成对抗网络（GAN），GAN等生成式模型试图通过从隐式生成模型中学习底层数据分布来缓解负采样问题，提出了一种基于生成对抗网络的PU推荐方法（Positive-Unlabeled REcommendation, PURE）。

预备知识

问题定义

为研究隐式推荐问题，首先定义用户和项目的集合为 $U$ 和 $I$ 。对于用户 $u$ ，他会和一系列项目进行交互，定义用户-项目交互矩阵为 $R\in\{1,0\}^{M\times N}$ ， $M,N$ 为用户和项目的数量，若用户 $u$ 和项目 $i$ 之间有交互，则 $R_{ui}=1$ 。进一步，假设 $\Omega$ 为观察过实体的索引集合，即 $(u,i)\in\Omega \ if\ R_{ui}=1$ 。注意，根据前面的描述可知： $R_{ui}=0$ 并不代表用户对该项目不敢兴趣。在实际中，每个用户只能评价和查看数量非常有限的项目。因此，在不丧失一般性的前提下，假设真正相关的用户-项目对在本质上是非常稀疏的。

综上，推荐问题通常表述如下：

给定： 一个用户集合 $U=\{u_1,...,u_M\}$ 、一个项目集合 $I=\{i_1,...,i_N\}$ ，和观察到的用户-项目关系矩阵 $R$

输出： 对于 $U$ 中的每个用户 $U$ ，估计其和未观察到项目的交互分数

广义矩阵分解

矩阵分解(Matrix Factorization, MF)是将用户-项目矩阵 $R$ 分解为两个低维矩阵的乘积来实现隐因子模型（latent factor model）的一种推荐方法，MF模型通常将用户和项目映射到一个维数为 $𝑑$ 的联合隐因子空间。每个用户 $u$ 和一个隐向量 $e_u\in\mathbb{R}^d$ 相关联，每个项目 $i$ 和一个隐向量 $e_i\in\mathbb{R}^d$ 相关联。为学习这些向量，学习目标通常设计为：最小化观测到用户-项目对的平方误差：

\min_{e_u,e_i}\sum_{(u,i)\in\Omega}(R_{ui}-e^T_ue_i)^2

尽管MF在各种应用中取得了成功，但它假设用户和项目潜在特征在每个维度上都是同等重要的，并将它们与相等的权重结合在一起。然而，MF可能由于这种简单的假设而导致较大的排名误差。因此，使用GMF模型来提升MF的表达能力，上式修改为：

\min_{e_u,e_i}\sum_{(u,i)\in\Omega\cup\Omega^-}(R_{ui}-\{e_u\odot e_i\}^Tr_D)^2

$\odot$ 为向量的乘积， $\Omega^-$ 为负样本的集合，从未观察到的用户-项目对交互中抽样得到。 $r_D$ 为一个可学习的向量，用来建立 $e_u$ 到 $e_i$ 间的关系映射。

生成对抗网络 GAN

GAN由两个模型构成：鉴别器 $D$ 和生成器 $G$ ，二者一起玩一个极大极小博弈游戏。鉴别器 $D$ 的目的是从生成器 $G$ 中区分真实数据和假数据，同时生成器 $G$ 致力于生成假数据用来尽可能混淆鉴别器 $D$ 。

GAN的目标可以形式化为：

\min_G\max_D V(D,G)=\mathbb{E}_{p_{data}(x)}[\log D(x)]+\mathbb{E}_{p_{g}(x)}[f\log(1-D(x))]

$p_{data}(x), p_g(x)$ 为真实数据和由 $G$ 生成的假数据的分布。GAN的目标等价于最小化 $p_{data}(x)和 p_g(x)$ 间的 Jensen-Shannon Divergence（JS散度）。

在实现过程中，GAN需要包含用于损失计算和梯度反向传播的目标函数，因此上述目标函数公式改写成：

\min_G\max_D V(D,G)=\mathbb{E}_{p_{data}(x)}[f_D(D(x))]+\mathbb{E}_{p_{g}(x)}[f_G(D(x))]

$f_D,f_G$ 为 $D,G$ 的损失函数。

提出的方法

首先在PURE中提出了鉴别器，它能够在PU学习环境下考虑不同类型的训练样本，然后，引入了生成伪用户的生成器和通过覆盖特征空间的角落来增加模型表示能力的伪项目嵌入，PURE的架构总览如图1所示。

鉴别模型

在明确了风险最小化目标的基础上，通过以下几组训练样本来经验性训练鉴别器:

从给定观察中得到的正样本

用户 $u$ 和项目 $i$ 在给定数据集中被观察到，并确定相关，即： $R_{ui}=1$ 。对于这类样本，鉴别器的目标是最大化下面的目标：

V(D)_1=\sum^{n_p}_{(u,i)\in \Omega}\pi_p\log D(u,i)-\pi_p\log(1-D(u,i))

其中 $n_p=|R|$ 表示观测到的正元组的数量。

从未观测样本和生成器中得到的未标记样本

给定用户 $u$ ，鉴别器需要给那些没有被排名或观看的项目分配较低的分数，从未观察到的样本和生成的用户-项目样本中分解出这部分目标样本:

V(D)_2=\sum^{n_u}_{(u,i)\in \Omega^-}\log(1-D(u,i))+[\log(1-D(u,i'))+\log(1-D(u',i))]

假用户 $u'\sim G()z_u$ 和假项目 $i'\sim G(z_i)$ 由用户和项目生成器生成， $n_u$ 为从未标记样本中抽取的未标记元组的数量。

生成模型

生成模型的目的是生成假样本，尽可能愚弄鉴别器。因此，对于一个真实样本 $(u,i)$ ，生成器 $G_i(z_i)$ 的任务是生成一个假项目 $i'$ 让其尽可能与 $u$ 相关，假项目可以是虚拟的，甚至不用存在于项目集合 $I$ 中，类似的用户生成器的任务是生成假用户 $u'$ 使其尽可能与 $i$ 相关。特别的，将两个生成器的噪声设定为一个随机高斯噪声：

z_i,z_u\sim N(0,\delta I)

噪声输入的均值将是一个零向量 $0$ ，其大小和嵌入维数 $d$ 相同。这里的 $I\in \mathbb{R}^{d\times d}$ 为一个单位矩阵，其值由 $\delta$ 控制，表示生成器噪声输入的隐偏差。之后，使用一个多层感知器（multi-layer perceptron , MLP）用于生成假项目 $i'$ 和用户 $u'$ ，如下所示：

i'\sim G_i(z_i)=ReLU(W^2_i\cdot ReLU(W^1_i\cdot z_i+b^1_i)+b^2_i) \\ \ \\ u'\sim G_u(z_u)=ReLU(W^2_u\cdot ReLU(W^1_u\cdot z_u+b^1_u)+b^2_u)

显然其中的 $W,b$ 表示权重和偏置。

综上所述，得到PURE的总体目标函数：

模型分析

鉴别器实例化

鉴别器的决策函数 $\phi(u,i)$ 可以有多种定义方法，在文章的实验中，是用来GMF的方法，假设用户和项目的嵌入是等维度的：

D(u,i)=\frac{1}{1+exp(-\{e_u\odot e_i\}^Tr_D)}

若扩展到用户和项目不等维度的情况，上面的公式可转化为：

D(u,i)=\frac{1}{1+exp(-e^T_uM_De_i)}

其中 $e_u\in\mathbb{R}^{d_u},e_i\in\mathbb{R}^{d_i}$ ，为两个不同维度的嵌入， $M_D\in\mathbb{R}^{d_u\times d_i}$ 为一个可学习到的关系映射矩阵。

抽样方式

在PN学习中，一种常见的做法是将观察到的用户-项目元组视为正样本，未观察到的的视为负样本。这种方法有显然的局限性，因此在PURE中，改用了UNS采样策略，因为未标记数据已经在PU学习目标中被明确建模。

算法

PURE的算法伪代码如下所示：

【论文学习】PURE

简介