AE4Rec:自编码器用于推荐系统

269 阅读12分钟
论文题目:Auto-encoder for Recommendation
论文来源:课程设计
一、引言

随着互联网的快速发展,用户面临着信息过载 的问题。大量的信息使得用户难以做出有效的抉 择。推荐系统的出现可以有效地缓解这一问题。推 荐系统就是一个过滤系统,为用户提供个性化的信 息。其不仅改善了用户体验,而且还能因此增加商 业利益。协同过滤是推荐系统模型中的一种,其目 的是利用用户对于物品的偏好信息(如评价信息) 来提供个性化推荐。本文会分别对基于传统机器学 习的协同过滤模型和基于神经网络的协同过滤模 型进行介绍,侧重主要介绍后者,因为后者在协同 过滤中所取得的效果更佳。基于传统机器学习的协 同过滤的工作包括矩阵分解[1,2]^{[1,2]} 和邻域模型[3]^{[3]},基 于神经网络的协同过滤的工作包括基于神经元的模型[4]^{[4]} 和基于自编码器的模型[58]^{[5–8]}

二、研究现状

协同过滤使用用户的偏好数据来进行个性化 推荐,偏好数据包括用户对商品的评分或者一些行 为(点击、购买等)。在许多面向用户的电子商务 和社交媒体的应用中,偏好数据是普遍存在的。按 照对偏好数据的使用的方式的不同,可以将协同过 滤模型分为:基于传统机器学习和基于神经网络两 类。而基于神经网络的模型可以进一步细分为基于 自编码器和基于图神经网络两类,本文主要关注基于自编码器的协同过滤部分。

三、基于机器学习的协同过滤

表征学习[9]^{[9]} 的目标是为了捕捉和编码观测数 据的潜在模式。在偏好数据的情况下,可以将学习 到的表征用于推荐。很明显偏好数据是动态的,因 为用户每个时刻的偏好是改变的,所以我们需要 从这些动态的偏好数据中找到用户与商品之间的 关系。为了解决这一问题,潜在因子和矩阵分解模型[1,1013]^{[1,10–13]}在协同过滤中取得了成功。他们取得成功的主要原因是因为他们简单、有效、高效和易可 扩展性。然而这一类的模型受限于其本身只能捕捉 数据或潜在空间中的线性模式。

四、基于自编码器的协同过滤

image.png

AutoRec[5]^{[5]}是第一个将自编码器用于协同过滤 的模型,其模型如上图所示,其输入为一个大小为 |𝑈| × |𝐼| 大小的评分矩阵,经过两 个带偏置的全连接层所得的输出为最终的评分矩阵。其中 |𝑈| 是指用户的数目,|𝐼| 是指所有商品的数目,𝑟 (𝑖)^{(𝑖)} 表示第 𝑖 个用户对于所有商品的评分的集合,𝑅𝑚𝑖_{𝑚𝑖} 表示用户 𝑖 对于第 𝑚 个商品的评分。V 和 M 分别表示两个全连接层的权重。对于输入的评分矩阵𝑟,经过两个全连接层之后,其输出可以使用以下公式表示:

image.png

其中 𝑓(⋅) 和 𝑔(⋅) 是激活函数,𝜃 = {W, V, 𝜇, 𝑏},WR𝑑×𝑘\in ℝ^{𝑑×𝑘},V R𝑘×𝑑\in ℝ^{𝑘×𝑑},同时偏执 𝝁 R𝑘\in ℝ^{𝑘},b R𝑑\in ℝ^{𝑑}。 其目标函数如下所示:

image.png

其优化的目标就是最小化预测值与真实值的均方 误差,其中 𝜆 为超参数,其目的是控制正则项对于 模型的影响,该正则是为了防止模型参数过大,同 时为了防止模型出现过拟合。

image.png

CDAE[6]^{[6]} 在 AutoRec的基础上提出为每一个 用户分配一个独立的神经元,用于防止模型过拟合, 其模型如上图所示,输入和 AutoRec一样,一个大小为 |𝑈| × |𝐼| 的评分 矩阵,但在经过第一个全连接层之前为每一个用户单独分 配了一个神经元(红色表示),经过两个带有偏置的全连接 层所得的输出为最终的评分矩阵。其中 |𝑈| 是指用户的数 目,|𝐼| 是指商品的数目, ̃𝑦𝑢𝑖_{𝑢𝑖} 表示用户 𝑢 对于商品 𝑖 的评分。 其中 ℎ(⋅) 为激活函数,W 为第一个全连接层的权 重,V𝑢_𝑢 表示用户 𝑢 的特别表示,b 为第一个全连接 层的偏置。对于输入的评分矩阵经过第一个全连接层之后所得输出为:

image.png

将经过第一个全连接层的输出 𝑧𝑢_𝑢 作为输入,在经过第二个全连接层之后最终的输出为:

image.png

其中 𝑓(⋅) 表示激活函数,W′ 表示第二个全连接层 的权重,𝑏′ 表示第二个全连接层的偏置。 其目标函数如下所示:

image.png

其中 W 和 W′ 为两个全连接层的权重,b 和 b′ 为 两个全连接层的偏置,V 表示为每个用户分配的 独立的神经元的权重,𝜆 为正则项在目标函数中的 权重,U 表示用户的数目,ℓ(⋅) 表示损失函数,使 用的是均方误差损失函数。通过比较 CDAE和 AutoRec的目标函数不难发现两者的差距仅仅是CDAE多了一个神经元和偏置。为每一个用户分配一个不共享参数的神经元能够有效地防止模型发生过拟合从而导致模型坍塌。

image.png

Mult-VAE[7]^{[7]} 是第一个将变分自编码器用于协同过滤的模型,其模型如图 3所示,3 输入 𝑥 为一个大小为 |𝑈| × |𝐼| 大小的评分矩阵,其经 过一个全连接层之后得到两个相同的输出 𝜇 和 𝜎,然后对于 𝜇 不做改动,对于 𝜎 乘以一个服从某种分布的 𝜖,然后将其 与 𝜇 相加得到 𝑧,最后 𝑧 再经过一个全连接层之后输出𝑥。在介绍该模型 之前需要知道什么是似然与概率。给定两个输入 𝜃 和 𝑥 分别表示模型的参数和具体的数据。𝑃 (𝑥|𝜃) 有 以下两种情况:

• 如果 𝜃 是已知确定的,𝑥 是变量,这个函数就叫 作概率函数,它描述对于不同的样本点 𝑥,其出现 的概率。

• 如果 𝑥 是已知确定的,𝜃 是变量,这个函数就叫 做似然函数,它描述对于不同的模型参数,出现 𝑥 这个样本点的概率是多少。

image.png

其中 𝑢 ∈ {1, ..., 𝑈} 表示不同的用户,𝑖 ∈ {1, ..., 𝐼} 表示不同的商品,𝑓𝜃 (⋅) ∈ ℝ𝐼 表示一个非线性的激 活函数,且是在一个参数为 𝜃 的多层感知机之后的 激活函数。𝜋(𝑧𝑢_𝑢 ) 表示经过归一化函数之后所得的 概率向量。其包含所有的商品集合。 用户 𝑢 的对数似然函数可以表示为:

image.png

image.png

其中,𝜃 表示所有的模型参数,𝐾𝐿(𝑎||𝑏) 用于度量两个分布 𝑎 与 𝑏 之间的相似程度。𝛽 是一个超参数, 用于表示正则项在目标函数中所占权重。

image.png

image.png

Bi-VAE[8]^{[8]} 对 Mult-VAE 进行了改进,其模型如上图所示,输入为一个大小为 |𝑈| × |𝐼| 大小的评分矩阵,实则 是一个二维矩阵,先前的工作包括 VAE在内都只考虑了 单一的维度的关系,要么只考虑了二维矩阵中的纵向关系, 要么只考虑了横向的关系,BiVAE同时考虑了两种关系。 如图所示,𝑈 表示以用户为出发点,即考虑了矩阵中横向关 系,𝐼 表示以商品为出发点,即考虑了矩阵中的纵向关系。该模型的目标函数为:

image.png

其中 𝜃𝑢_𝑢 和 𝛽𝑖_𝑖 分别表示对用户和对商品分别编码的 模型的参数。因为同时考虑了横向和纵向的关系, 所以在求解正则的时候需要两个度量函数。 对于用户和商品两部分的优化可以进一步细分为 以下两个公式:

image.png

image.png

五、实验与分析

image.png

image.png

通过比较 ItemCF 与 UserCF 两列可知,基于商 品的协同过滤是好于基于用户的协同过滤的,因为 UserCF 在考虑用户的相似性的时候仅仅考虑了用户之间商品的交集的数目所占的比例,并没有考虑 这些物品的位置关系。例如两个用户分别交互了 10 个商品,但两个用户有交集的商品只是前两个,说 明用户对于后面 8 个商品的意图是不一样的,直接 通过两者的并集进行推荐并不会有一个好的效果。 相反 ItemCF 考虑给用户推荐的是与其点击的最后 一个商品最相似的未交互过的商品,这就考虑了用 户最近的意图。

通过比较 ItemCF 与 Mult-VAE 的实验结果可 知,基于商品的协同过滤在 Recall@5 和 Recall@10 这两个指标上是好于 Mult-VAE 的,可能是因为其 考虑了用户最近的意图,但是其在 NDCG 的所有 指标上都是比 Mult-VAE 差的,可能是因为其预测 的商品的位置偏于后面。

通过比较实验结果可知,基于变分自编码器的 协同过滤模型[7,8]^{[7,8]} 在折损累计增益指标上是完全好 于基于邻域的传统协同过滤模型[3]^{[3]}的可能是因 为传统的模型只考虑邻域的关系而没有考虑全局的关系。

六、展望与结论

协同过滤推荐系统主要依赖于用户的历史交 互数据,并且会遭遇冷启动问题。为了缓解这个问 题,一些研究工[1416]^{[14–16]} 提出使用辅助信息,例如用 户画像和商品属性来丰富用户与商品的表示。除此 之外,还有一些使用更加高效的学习机制来缓解对 数据的重度依赖,例如小样本学习[16,17]^{[16,17]}。与此同 时,在协同过滤推荐模型中,一直以来都面临者数 据稀疏的问题,因为用户与商品的交互数据是远远 小于两者的数目的乘积的。传统的协同过滤模型要 么只考虑单一的线性关系,要么没有充分利用原始 数据中的潜在关系。虽然实现的方法简单易懂,但 是受限于数据稀疏。随着神经网络的快速发展,利 用神经网络对商品和用户进行编码,这在一定程度 上缓解了数据稀疏的问题。通过神经网络对商品和 用户进行编码,并从细粒度考虑数据的编码信息可 能会成为未来协同过滤研究工作中的重点。

通过论文中对于模型的分析和实验结果的比 较,可以知道通过神经网络可以缓解协同过滤中数 据稀疏的问题,通过细粒度地利用原始的数据,可 以进一步缓解数据稀疏的问题。例如在编码过程中考虑用户的独特性[6]^{[6]},在对商品进行编码时考虑数 据的分布[7]^{[7]},分别对用户和商品进行编码[8]^{[8]}。这些 工作都很好地缓解了数据稀疏的问题。

七、参考文献

[1] KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8):30-37.

[2] LEE J, KIM S, LEBANON G, et al. Local low-rank matrix approximation[C]//International conference on machine learning. [S.l.]: PMLR, 2013: 82-90.

[3] SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]//Proceedings of the 10th international conference on World Wide Web. [S.l.: s.n.], 2001: 285- 295.

[4] SALAKHUTDINOV R, MNIH A, HINTON G. Restricted boltzmann machines for collaborative filtering[C]//Proceedings of the 24th international conference on Machine learning. [S.l.: s.n.], 2007: 791-798.

[5] SEDHAIN S, MENON A K, SANNER S, et al. Autorec: Autoencoders meet collaborative filtering[C]//Proceedings of the 24th international conference on World Wide Web. [S.l.: s.n.], 2015: 111-112.

[6] U Y, DUBOIS C, ZHENG A X, et al. Collaborative denoising autoencoders for top-n recommender systems[C]//Proceedings of the ninth ACM international conference on web search and data mining. [S.l.: s.n.], 2016: 153-162.

[7] LIANG D, KRISHNAN R G, HOFFMAN M D, et al. Variational autoencoders for collaborative filtering[C]//Proceedings of the 2018 world wide web conference. [S.l.: s.n.], 2018: 689-698.

[8] RUONG Q T, SALAH A, LAUW H W. Bilateral variational autoencoder for collaborative filtering[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. [S.l.: s.n.], 2021: 292-300.

[9] BENGIO Y, COURVILLE A, VINCENT P. Representation learning: A review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8):1798-1828.

[10] GOPALAN P, HOFMAN J M, BLEI D M. Scalable recommendation with hierarchical poisson factorization.[C]//UAI. [S.l.: s.n.], 2015: 326- 335.

[11] HU Y, KOREN Y, VOLINSKY C. Collaborative filtering for implicit feedback datasets[C]//2008 Eighth IEEE international conference on data mining. [S.l.]: Ieee, 2008: 263-272.

[12] RENDLE S, FREUDENTHALER C, GANTNER Z, et al. Bpr: Bayesian personalized ranking from implicit feedback[J]. arXiv preprint arXiv:1205.2618, 2012.

[13] MNIH A, SALAKHUTDINOV R R. Probabilistic matrix factorization [J]. Advances in neural information processing systems, 2007, 20.

[14] OU D, LIU C, et al. Recommender systems with social regularization[C]//Proceedings of the fourth ACM international conference on Web search and data mining. [S.l.: s.n.], 2011: 287-296.

[15] ANOTUMRUKSA J, MACDONALD C, OUNIS I. Regularising factorised models for venue recommendation using friends and their comments[C]//Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. [S.l.: s.n.], 2016: 1981- 1984.

[16] YU J, GAO M, LI J, et al. Adaptive implicit friends identification over heterogeneous network for social recommendation[C]//Proceedings of the 27th ACM international conference on information and knowledge management. [S.l.: s.n.], 2018: 357-366.

[17] LI J, JING M, LU K, et al. From zero-shot learning to cold-start recommendation[C]//Proceedings of the AAAI conference on artificial intelligence: volume 33. [S.l.: s.n.], 2019: 4189-4196.

[18] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]// Proceedings of the 25th international conference on Machine learning. [S.l.: s.n.], 2008: 1096-1103.