第八章 业务驱动视角下的召回技术
一,思维导图
二,技术介绍
针对思维导图中提到的几项技术,这里在展开介绍下。
2.1 矩阵补全算法
问题背景:用户评分向量是可以用其他相似用户的评分向量来线性表示的。在线性代数中,如果行向量之间不是完全线性独立的,那么这个矩阵就不是满秩的。在实践场景中,我们面向的用户是有人群划分的,同一个群体的用户偏好相似度很高,大量用户向量可以互相被相互表示,那么用户的偏好矩阵就是一个低秩矩阵。假设r是矩阵的秩,n是用户总量,那么r远小于n。
假设:在低秩假设下,用户的偏好矩阵可以被一个与之等价的低秩矩阵代表。找到这个等价矩阵,就相当于补全了原始偏好矩阵中的缺失值、用户潜在的偏好内容。这就是矩阵补全算法的基本逻辑。
2.2 Deep Match 框架
传统的协同过滤遇到超大数据规模的推荐系统中时,显示出了缺陷,主要有以下四个方面:
- 用户规模和内容数以亿计
- 新用户、新内容持续投放
- 传统的协同过滤无法处理冷启动的问题
- 基于协同过滤的U2I的核心思想是寻找相似的用户,而用户往往无法提供明确的偏好、或不够客观。
为了解决这个问题,我们可以把矩阵补全思想进行改良,衍生出广义矩阵补全。底层逻辑是找到两个因子矩阵和,用来近似重构出用户-内容矩阵。深度学习中,这个问题可以通过深度神经网络表征学习来高效解决。假设F是一个神经网络的集合,和分别是其中两个具体的神经网络,我们试图在中找到最优的和把杂乱无章的用户、内容特征映射到统一特征空间,从而得到和。因此会有损失函数表示为:
2.3 Swing I2I 算法
2.3.1 Adamic-Adar算法
核心思想很简单:两个人之间共同好友越多,那么这两个人愿意互相加好友的可能性就越高。形式化定义如下: 为i的出度。出度越大的节点对最后的分数贡献越少,可以认为是惩罚。这是社交网络中常见的去热手段。例子是比如说两个完全无关的人A和B同时关注了一个名人,那这时给A推荐B就站不住脚了;或者基于两个人都买过卫生纸,很难得到两个人消费偏好相似的结论。
2.3.2 Swing I2I算法
2.4 GraphSage 算法
参考知乎介绍:www.zhihu.com/search?type…