业务驱动的推荐系统 方法与实践 第8章 召回技术(上)

144 阅读2分钟

第八章 业务驱动视角下的召回技术

一,思维导图

image.png

二,技术介绍

针对思维导图中提到的几项技术,这里在展开介绍下。

2.1 矩阵补全算法

问题背景:用户评分向量是可以用其他相似用户的评分向量来线性表示的。在线性代数中,如果行向量之间不是完全线性独立的,那么这个矩阵就不是满秩的。在实践场景中,我们面向的用户是有人群划分的,同一个群体的用户偏好相似度很高,大量用户向量可以互相被相互表示,那么用户的偏好矩阵就是一个低秩矩阵。假设r是矩阵的秩,n是用户总量,那么r远小于n。
假设:在低秩假设下,用户的偏好矩阵可以被一个与之等价的低秩矩阵代表。找到这个等价矩阵,就相当于补全了原始偏好矩阵中的缺失值、用户潜在的偏好内容。这就是矩阵补全算法的基本逻辑。

image.png image.png

2.2 Deep Match 框架

传统的协同过滤遇到超大数据规模的推荐系统中时,显示出了缺陷,主要有以下四个方面:

  • 用户规模和内容数以亿计
  • 新用户、新内容持续投放
  • 传统的协同过滤无法处理冷启动的问题
  • 基于协同过滤的U2I的核心思想是寻找相似的用户,而用户往往无法提供明确的偏好、或不够客观。

为了解决这个问题,我们可以把矩阵补全思想进行改良,衍生出广义矩阵补全。底层逻辑是找到两个因子矩阵UUVV,用来近似重构出用户-内容矩阵XX。深度学习中,这个问题可以通过深度神经网络表征学习来高效解决。假设F是一个神经网络的集合,FUF_UFVF_V分别是其中两个具体的神经网络,我们试图在FF中找到最优的FUF_UFVF_V把杂乱无章的用户、内容特征映射到统一特征空间,从而得到UUVV。因此会有损失函数表示为: image.png image.png

2.3 Swing I2I 算法

2.3.1 Adamic-Adar算法

核心思想很简单:两个人之间共同好友越多,那么这两个人愿意互相加好友的可能性就越高。形式化定义如下: image.png T(i)T(i)为i的出度。出度越大的节点对最后的分数贡献越少,可以认为是惩罚。这是社交网络中常见的去热手段。例子是比如说两个完全无关的人A和B同时关注了一个名人,那这时给A推荐B就站不住脚了;或者基于两个人都买过卫生纸,很难得到两个人消费偏好相似的结论。

2.3.2 Swing I2I算法

image.png image.png

2.4 GraphSage 算法

参考知乎介绍:www.zhihu.com/search?type…