第八章业务驱动视角下的召回技术

一，思维导图

二，技术介绍

针对思维导图中提到的几项技术，这里在展开介绍下。

2.1 矩阵补全算法

问题背景：用户评分向量是可以用其他相似用户的评分向量来线性表示的。在线性代数中，如果行向量之间不是完全线性独立的，那么这个矩阵就不是满秩的。在实践场景中，我们面向的用户是有人群划分的，同一个群体的用户偏好相似度很高，大量用户向量可以互相被相互表示，那么用户的偏好矩阵就是一个低秩矩阵。假设r是矩阵的秩，n是用户总量，那么r远小于n。
假设：在低秩假设下，用户的偏好矩阵可以被一个与之等价的低秩矩阵代表。找到这个等价矩阵，就相当于补全了原始偏好矩阵中的缺失值、用户潜在的偏好内容。这就是矩阵补全算法的基本逻辑。

2.2 Deep Match 框架

传统的协同过滤遇到超大数据规模的推荐系统中时，显示出了缺陷，主要有以下四个方面：

用户规模和内容数以亿计
新用户、新内容持续投放
传统的协同过滤无法处理冷启动的问题
基于协同过滤的U2I的核心思想是寻找相似的用户，而用户往往无法提供明确的偏好、或不够客观。

为了解决这个问题，我们可以把矩阵补全思想进行改良，衍生出广义矩阵补全。底层逻辑是找到两个因子矩阵 $U$ 和 $V$ ，用来近似重构出用户-内容矩阵 $X$ 。深度学习中，这个问题可以通过深度神经网络表征学习来高效解决。假设F是一个神经网络的集合， $F_U$ 和 $F_V$ 分别是其中两个具体的神经网络，我们试图在 $F$ 中找到最优的 $F_U$ 和 $F_V$ 把杂乱无章的用户、内容特征映射到统一特征空间，从而得到 $U$ 和 $V$ 。因此会有损失函数表示为：

2.3 Swing I2I 算法

2.3.1 Adamic-Adar算法

核心思想很简单：两个人之间共同好友越多，那么这两个人愿意互相加好友的可能性就越高。形式化定义如下： $T(i)$ 为i的出度。出度越大的节点对最后的分数贡献越少，可以认为是惩罚。这是社交网络中常见的去热手段。例子是比如说两个完全无关的人A和B同时关注了一个名人，那这时给A推荐B就站不住脚了；或者基于两个人都买过卫生纸，很难得到两个人消费偏好相似的结论。