AE4Rec:自编码器用于推荐系统论文题目：Auto-encoder for Recommendation 论文来源：课

论文题目：Auto-encoder for Recommendation

论文来源：课程设计

一、引言

随着互联网的快速发展，用户面临着信息过载的问题。大量的信息使得用户难以做出有效的抉择。推荐系统的出现可以有效地缓解这一问题。推荐系统就是一个过滤系统，为用户提供个性化的信息。其不仅改善了用户体验，而且还能因此增加商业利益。协同过滤是推荐系统模型中的一种，其目的是利用用户对于物品的偏好信息（如评价信息）来提供个性化推荐。本文会分别对基于传统机器学习的协同过滤模型和基于神经网络的协同过滤模型进行介绍，侧重主要介绍后者，因为后者在协同过滤中所取得的效果更佳。基于传统机器学习的协同过滤的工作包括矩阵分解 $^{[1,2]}$ 和邻域模型 $^{[3]}$ ，基于神经网络的协同过滤的工作包括基于神经元的模型 $^{[4]}$ 和基于自编码器的模型 $^{[5–8]}$ 。

二、研究现状

协同过滤使用用户的偏好数据来进行个性化推荐，偏好数据包括用户对商品的评分或者一些行为（点击、购买等）。在许多面向用户的电子商务和社交媒体的应用中，偏好数据是普遍存在的。按照对偏好数据的使用的方式的不同，可以将协同过滤模型分为：基于传统机器学习和基于神经网络两类。而基于神经网络的模型可以进一步细分为基于自编码器和基于图神经网络两类，本文主要关注基于自编码器的协同过滤部分。

三、基于机器学习的协同过滤

表征学习 $^{[9]}$ 的目标是为了捕捉和编码观测数据的潜在模式。在偏好数据的情况下，可以将学习到的表征用于推荐。很明显偏好数据是动态的，因为用户每个时刻的偏好是改变的，所以我们需要从这些动态的偏好数据中找到用户与商品之间的关系。为了解决这一问题，潜在因子和矩阵分解模型 $^{[1,10–13]}$ 在协同过滤中取得了成功。他们取得成功的主要原因是因为他们简单、有效、高效和易可扩展性。然而这一类的模型受限于其本身只能捕捉数据或潜在空间中的线性模式。

四、基于自编码器的协同过滤

AutoRec $^{[5]}$ 是第一个将自编码器用于协同过滤的模型，其模型如上图所示,其输入为一个大小为 |𝑈| × |𝐼| 大小的评分矩阵，经过两个带偏置的全连接层所得的输出为最终的评分矩阵。其中 |𝑈| 是指用户的数目，|𝐼| 是指所有商品的数目，𝑟 $^{(𝑖)}$ 表示第 𝑖 个用户对于所有商品的评分的集合，𝑅 $_{𝑚𝑖}$ 表示用户 𝑖 对于第 𝑚 个商品的评分。V 和 M 分别表示两个全连接层的权重。对于输入的评分矩阵𝑟，经过两个全连接层之后，其输出可以使用以下公式表示：

其中 𝑓(⋅) 和 𝑔(⋅) 是激活函数，𝜃 = {W, V, 𝜇, 𝑏}，W $\in ℝ^{𝑑×𝑘}$ ，V $\in ℝ^{𝑘×𝑑}$ ，同时偏执 𝝁 $\in ℝ^{𝑘}$ ，b $\in ℝ^{𝑑}$ 。其目标函数如下所示：

其优化的目标就是最小化预测值与真实值的均方误差，其中 𝜆 为超参数，其目的是控制正则项对于模型的影响，该正则是为了防止模型参数过大，同时为了防止模型出现过拟合。

CDAE $^{[6]}$ 在 AutoRec的基础上提出为每一个用户分配一个独立的神经元，用于防止模型过拟合，其模型如上图所示，输入和 AutoRec一样，一个大小为 |𝑈| × |𝐼| 的评分矩阵，但在经过第一个全连接层之前为每一个用户单独分配了一个神经元（红色表示），经过两个带有偏置的全连接层所得的输出为最终的评分矩阵。其中 |𝑈| 是指用户的数目，|𝐼| 是指商品的数目， ̃𝑦 $_{𝑢𝑖}$ 表示用户 𝑢 对于商品 𝑖 的评分。其中 ℎ(⋅) 为激活函数，W 为第一个全连接层的权重，V $_𝑢$ 表示用户 𝑢 的特别表示，b 为第一个全连接层的偏置。对于输入的评分矩阵经过第一个全连接层之后所得输出为：

将经过第一个全连接层的输出 𝑧 $_𝑢$ 作为输入，在经过第二个全连接层之后最终的输出为：

其中 𝑓(⋅) 表示激活函数，W′ 表示第二个全连接层的权重，𝑏′ 表示第二个全连接层的偏置。其目标函数如下所示：

其中 W 和 W′ 为两个全连接层的权重，b 和 b′ 为两个全连接层的偏置，V 表示为每个用户分配的独立的神经元的权重，𝜆 为正则项在目标函数中的权重，U 表示用户的数目，ℓ(⋅) 表示损失函数，使用的是均方误差损失函数。通过比较 CDAE和 AutoRec的目标函数不难发现两者的差距仅仅是CDAE多了一个神经元和偏置。为每一个用户分配一个不共享参数的神经元能够有效地防止模型发生过拟合从而导致模型坍塌。

Mult-VAE $^{[7]}$ 是第一个将变分自编码器用于协同过滤的模型，其模型如图 3所示,3 输入 𝑥 为一个大小为 |𝑈| × |𝐼| 大小的评分矩阵，其经过一个全连接层之后得到两个相同的输出 𝜇 和 𝜎，然后对于 𝜇 不做改动，对于 𝜎 乘以一个服从某种分布的 𝜖，然后将其与 𝜇 相加得到 𝑧，最后 𝑧 再经过一个全连接层之后输出𝑥。在介绍该模型之前需要知道什么是似然与概率。给定两个输入 𝜃 和 𝑥 分别表示模型的参数和具体的数据。𝑃 (𝑥|𝜃) 有以下两种情况：

• 如果 𝜃 是已知确定的，𝑥 是变量，这个函数就叫作概率函数，它描述对于不同的样本点 𝑥，其出现的概率。

• 如果 𝑥 是已知确定的，𝜃 是变量，这个函数就叫做似然函数，它描述对于不同的模型参数，出现 𝑥 这个样本点的概率是多少。

其中 𝑢 ∈ {1, ..., 𝑈} 表示不同的用户，𝑖 ∈ {1, ..., 𝐼} 表示不同的商品，𝑓𝜃 (⋅) ∈ ℝ𝐼 表示一个非线性的激活函数，且是在一个参数为 𝜃 的多层感知机之后的激活函数。𝜋(𝑧 $_𝑢$ ) 表示经过归一化函数之后所得的概率向量。其包含所有的商品集合。用户 𝑢 的对数似然函数可以表示为：

其中，𝜃 表示所有的模型参数，𝐾𝐿(𝑎||𝑏) 用于度量两个分布 𝑎 与 𝑏 之间的相似程度。𝛽 是一个超参数，用于表示正则项在目标函数中所占权重。

Bi-VAE $^{[8]}$ 对 Mult-VAE 进行了改进，其模型如上图所示，输入为一个大小为 |𝑈| × |𝐼| 大小的评分矩阵，实则是一个二维矩阵，先前的工作包括 VAE在内都只考虑了单一的维度的关系，要么只考虑了二维矩阵中的纵向关系，要么只考虑了横向的关系，BiVAE同时考虑了两种关系。如图所示，𝑈 表示以用户为出发点，即考虑了矩阵中横向关系，𝐼 表示以商品为出发点，即考虑了矩阵中的纵向关系。该模型的目标函数为：

其中 𝜃 $_𝑢$ 和 𝛽 $_𝑖$ 分别表示对用户和对商品分别编码的模型的参数。因为同时考虑了横向和纵向的关系，所以在求解正则的时候需要两个度量函数。对于用户和商品两部分的优化可以进一步细分为以下两个公式：

五、实验与分析

通过比较 ItemCF 与 UserCF 两列可知，基于商品的协同过滤是好于基于用户的协同过滤的，因为 UserCF 在考虑用户的相似性的时候仅仅考虑了用户之间商品的交集的数目所占的比例，并没有考虑这些物品的位置关系。例如两个用户分别交互了 10 个商品，但两个用户有交集的商品只是前两个，说明用户对于后面 8 个商品的意图是不一样的，直接通过两者的并集进行推荐并不会有一个好的效果。相反 ItemCF 考虑给用户推荐的是与其点击的最后一个商品最相似的未交互过的商品，这就考虑了用户最近的意图。

通过比较 ItemCF 与 Mult-VAE 的实验结果可知，基于商品的协同过滤在 Recall@5 和 Recall@10 这两个指标上是好于 Mult-VAE 的，可能是因为其考虑了用户最近的意图，但是其在 NDCG 的所有指标上都是比 Mult-VAE 差的，可能是因为其预测的商品的位置偏于后面。

通过比较实验结果可知，基于变分自编码器的协同过滤模型 $^{[7,8]}$ 在折损累计增益指标上是完全好于基于邻域的传统协同过滤模型 $^{[3]}$ 的可能是因为传统的模型只考虑邻域的关系而没有考虑全局的关系。

六、展望与结论

协同过滤推荐系统主要依赖于用户的历史交互数据，并且会遭遇冷启动问题。为了缓解这个问题，一些研究工 $^{[14–16]}$ 提出使用辅助信息，例如用户画像和商品属性来丰富用户与商品的表示。除此之外，还有一些使用更加高效的学习机制来缓解对数据的重度依赖，例如小样本学习 $^{[16,17]}$ 。与此同时，在协同过滤推荐模型中，一直以来都面临者数据稀疏的问题，因为用户与商品的交互数据是远远小于两者的数目的乘积的。传统的协同过滤模型要么只考虑单一的线性关系，要么没有充分利用原始数据中的潜在关系。虽然实现的方法简单易懂，但是受限于数据稀疏。随着神经网络的快速发展，利用神经网络对商品和用户进行编码，这在一定程度上缓解了数据稀疏的问题。通过神经网络对商品和用户进行编码，并从细粒度考虑数据的编码信息可能会成为未来协同过滤研究工作中的重点。

通过论文中对于模型的分析和实验结果的比较，可以知道通过神经网络可以缓解协同过滤中数据稀疏的问题，通过细粒度地利用原始的数据，可以进一步缓解数据稀疏的问题。例如在编码过程中考虑用户的独特性 $^{[6]}$ ，在对商品进行编码时考虑数据的分布 $^{[7]}$ ，分别对用户和商品进行编码 $^{[8]}$ 。这些工作都很好地缓解了数据稀疏的问题。

七、参考文献

[1] KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8):30-37.

[2] LEE J, KIM S, LEBANON G, et al. Local low-rank matrix approximation[C]//International conference on machine learning. [S.l.]: PMLR, 2013: 82-90.

[3] SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]//Proceedings of the 10th international conference on World Wide Web. [S.l.: s.n.], 2001: 285- 295.

[4] SALAKHUTDINOV R, MNIH A, HINTON G. Restricted boltzmann machines for collaborative filtering[C]//Proceedings of the 24th international conference on Machine learning. [S.l.: s.n.], 2007: 791-798.

[5] SEDHAIN S, MENON A K, SANNER S, et al. Autorec: Autoencoders meet collaborative filtering[C]//Proceedings of the 24th international conference on World Wide Web. [S.l.: s.n.], 2015: 111-112.

[6] U Y, DUBOIS C, ZHENG A X, et al. Collaborative denoising autoencoders for top-n recommender systems[C]//Proceedings of the ninth ACM international conference on web search and data mining. [S.l.: s.n.], 2016: 153-162.

[7] LIANG D, KRISHNAN R G, HOFFMAN M D, et al. Variational autoencoders for collaborative filtering[C]//Proceedings of the 2018 world wide web conference. [S.l.: s.n.], 2018: 689-698.

[8] RUONG Q T, SALAH A, LAUW H W. Bilateral variational autoencoder for collaborative filtering[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. [S.l.: s.n.], 2021: 292-300.

[9] BENGIO Y, COURVILLE A, VINCENT P. Representation learning: A review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8):1798-1828.

[10] GOPALAN P, HOFMAN J M, BLEI D M. Scalable recommendation with hierarchical poisson factorization.[C]//UAI. [S.l.: s.n.], 2015: 326- 335.

[11] HU Y, KOREN Y, VOLINSKY C. Collaborative filtering for implicit feedback datasets[C]//2008 Eighth IEEE international conference on data mining. [S.l.]: Ieee, 2008: 263-272.

[12] RENDLE S, FREUDENTHALER C, GANTNER Z, et al. Bpr: Bayesian personalized ranking from implicit feedback[J]. arXiv preprint arXiv:1205.2618, 2012.

[13] MNIH A, SALAKHUTDINOV R R. Probabilistic matrix factorization [J]. Advances in neural information processing systems, 2007, 20.

[14] OU D, LIU C, et al. Recommender systems with social regularization[C]//Proceedings of the fourth ACM international conference on Web search and data mining. [S.l.: s.n.], 2011: 287-296.

[15] ANOTUMRUKSA J, MACDONALD C, OUNIS I. Regularising factorised models for venue recommendation using friends and their comments[C]//Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. [S.l.: s.n.], 2016: 1981- 1984.

[16] YU J, GAO M, LI J, et al. Adaptive implicit friends identification over heterogeneous network for social recommendation[C]//Proceedings of the 27th ACM international conference on information and knowledge management. [S.l.: s.n.], 2018: 357-366.

[17] LI J, JING M, LU K, et al. From zero-shot learning to cold-start recommendation[C]//Proceedings of the AAAI conference on artificial intelligence: volume 33. [S.l.: s.n.], 2019: 4189-4196.

[18] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]// Proceedings of the 25th international conference on Machine learning. [S.l.: s.n.], 2008: 1096-1103.