PageRank

在本节我们可以了解到

PageRank的原理

PageRank如何应用到推荐系统上

从矩阵角度理解Embeddings

1、把图看成一个矩阵

在本节课，我们将矩阵角度来研究图

通过随机游走挖掘节点的重要性(PageRank)
通过矩阵分解来重新理解Node Embeddings

1 PageRank

PageRank最初是用于挖掘网页重要性的算法，网页之间的连接往往是有向图。

1.1 想法

PageRank是一个"flow"模型，通过“投票”的想法来定义一个节点的重要性

每个节点能获得它源节点连接带有的重要性比例
如果重要性为 $r_i$ 的节点 $i$ 有出度 $d_i$ ，则节点 $i$ 每条连接指向的节点能获得 $r_i/d_i$ 的“投票”
节点 $j$ 的重要性定义为所有指向它的连接重要性总和

1.2 随机邻接矩阵

定义随机邻接矩阵M

令节点 $j$ 有 $d_j$ 出度
如果 $j \rightarrow i$ 则有 $M_{ij}=\frac{1}{d_j}$
- M是一个列随机矩阵
  - M的列总和为1

向量 $r$ ：每个节点的重要性

$r_i$ 是节点 $i$ 的重要性分数
$r_i$ 的和为1

"flow" 等式可以写成

r=Mr\quad r_j=\sum_{i\rightarrow}{\frac{r_i}{d_i}}

1、一个计算例子

1.3 PageRank与随机游走的联系

想象一个随机上网的冲浪选手
- 在 $t$ 时刻，冲浪选手在节点 $i$
- 在 $t+1$ 时刻，冲浪选手随机从节点 $i$ 的一个出度溜走了
- 从 $i$ 溜到在某些节点 $j$ 停止了
- 无限重复这个过程
做一些假设
- 令 $p(t)$ 为 $t$ 时刻所有节点的状态
- $p(t)$ 是所有节点的一个概率分布

1、迭代得到稳定分布

如何得到冲浪选手在 $t+1$ 时刻的状态？
- 从一个链均匀的随机走

p(t+1)=Mp(t)

由随机游走得到 $t+1$ 的状态，当 $p(t+1)=p(t)$ 时说明达到稳定分布。
我们原始的节点排名 $r$ 满足 $r=Mr$
- 因此 $r$ 对于这种随机游走是一个稳定分布

2、回顾伴随矩阵的特征值分解

实际上 $r=Mr$ ，其中的 $r$ 是特征值为1的特征向量。
PageRank实际上是求 $r$ ，即求 $M$ 中特征值为1的特征向量
我们可以根据迭代方法求解 $r$

1.4 总结

PageRank
- 通过网络连接的结构计算节点的重要性
- 使用随机分布矩阵进行随机游走
- PageRank实际上是解决 $r=Mr$ 中 $r$ 求解问题

2 如何求解PageRank？

2.1 迭代

给定一个带有 $n$ 个节点的图，我们使用一个迭代过程：

给每个节点初始化一个重要性
重复PageRank直到 $\sum_{i}\left|r_{i}^{t+1}-r_{i}^{t}\right|<\epsilon$ 收敛
- $r_{j}^{t+1}$ 的计算过程为

r_{j}^{(t+1)}=\sum_{i \rightarrow j} \frac{r_{i}^{(t)}}{d_{i}}

1、具体过程

一个简单的迭代方法
- 初始化： $r^0=[1/N,\dots,1/N]^T$
- 迭代： $r^{(n+1)}=Mr^t$
- 当 $\left|\boldsymbol{r}^{(\boldsymbol{t}+\mathbf{1})}-\boldsymbol{r}^{t}\right|_{1}<\varepsilon$ 停止

可以证明50次迭代可以停止。

2、一个计算例子

2.2 存在两个问题

存在两个问题：

一些节点没有出边，存在消失的情况
陷入了局部死循环(所有节点都在同一个group中)

1、局部死循环

如图可以看到，节点b的出边只有自己，因此迭代得到一直是同一种分布。

2、消失的问题

如图中，节点b没有任何出边，迭代消失。

3、解决死循环的方法

解决循环的方法：在每一步，冲浪选手有两种选择
- 有 $\beta$ 概率随机跟从一个边
- 有 $1-\beta$ 的概率跳到图上的任意一个节点
- 一般来说 $\beta$ 设置为0.8到0.9之间

4、解决消失的方法

当到了消失的节点，赋予随机跳走的功能

5、为什么跳走可以解决问题？

2.3 最终的PageRank模型

在每步中，冲浪选手有两种选择
- 有 $\beta$ 概率，随机跟从一个链游走
- 有 $1-\beta$ 概率，随机跳到某些节点
得到最终的PageRank模型

r_{j}=\sum_{i \rightarrow j} \beta \frac{r_{i}}{d_{i}}+(1-\beta) \frac{1}{N}

随机邻接矩阵 $M$ 改写为 $G$ ：

G=\beta M+(1-\beta)\left[\frac{1}{N}\right]_{N \times N}

因此模型改为求解 $r=Gr$ 。

1、一个计算例子

2.4 总结

PageRank模型

目标：求解 $r=Gr$
方法：
- 初始化 $r^0$
- 迭代 $r^{i+1}=Gr^i$ （马尔科夫链）
- 限制 $\left|\boldsymbol{r}^{(\boldsymbol{t}+\mathbf{1})}-\boldsymbol{r}^{t}\right|_{1}<\varepsilon$
解决的问题：死循环和消失

3 随机重启和Personalized PageRank

3.1 想法

目标：计算相似的节点
- 什么物品我们该推荐给买过物品Q的客户？
- 想法：历史中如果Q和P被相似的客户购买过，那么我们就把P推荐给Q。
问题：如何找出P？

2、Personalized PageRank

PageRank
- 计算所有节点的重要性
- 在一个图上有概率从当前节点随机跳走
Pensonalized PageRank
- 计算给定节点群 $S$ 与图上节点的相似性
图上的邻近
- Q：什么物品和物品Q最接近？
- 随机重启游走
  - 跳回开始定义的节点群 $S$ ： $S=\{Q\}$

3.2 模型

给定一个查询节点群 $S$ ，此处定义只有一个节点 $Q$
- 定义迭代次数 $N\_STEPS$
  - 随机游走到该物品的购物者
  - 从上面得到的购物者，随机游走到他所购买的物品
  - 标记该物品被游走次数+1
  - 定义概率 $ALPHA$ ：
    - 根据 $ALPHA$ 随机重启回到节点群 $S$