1. 模型构造思路

整体思路： message passing系模型都很难将聚集的邻居扩大，也就是多卷几层扩大感受野。一是因为聚合求平均太多层会平滑，即over-smoothing问题，本文主要关注这一问题；二是因为层数增多也会增多参数，但是这一问题可以用共享参数解决，本文重点不在此，但本文提出的方法也成功减少了参数。 message passing本质是Laplacian smoothing，message passing系GNN（如GCN等）会出现over-smoothing问题，即如果网络层数增多，各节点的嵌入都会趋于相近，就无法反映各节点的自有特征。因此这些模型无法加深层数，只能在较近的邻居之间传播信息，限制其表示能力。但是在需要更多信息，尤其是对于边缘节点（实证结果见Appendix I）和有标签节点较少（实证结果见Figure 3和Appendix H）时，就是需要远程传播信息，所以本文提出了能够更远、更深传播信息而不over-smooth的 PPNP / APPNP 模型。原始GCN节点之间的影响程度与随机游走分布成比例，随机游走最终会趋于稳定，所以GCN节点影响程度也会趋于相同。PageRank得分即随机游走稳定分布，会得到全图的结构信息。而使用以根节点为teleport set 的 Personalized PageRank（PPR）方法能得到各节点独有的局部结构信息，这样就能保存住各节点的独有信息。本文提出的PPNP将predict和propagate阶段拆开，在predict阶段仅用节点特征来进行预测，在propagate阶段用PPR对预测值进行信息传递，这样能在远程传播中仍然保留节点局部信息，而且不需要过多的参数。 PPNP使PPR收敛至稳定状态。由于PPNP计算代价过高，在此基础上提出了代价较小的近似模型APPNP，只迭代有限次PPR。

PPR引入的思路：根据[JK][^1]，GNN中节点 $x$ 对 $y$ 的influence score： $I(x,y)=\sum_i\sum_j\frac{\partial\mathbf{Z}_{yi}}{\partial\mathbf{X}_{xj}}$ （ $x$ 特征各项元素对 $y$ 嵌入各项元素的影响程度的加总，感觉很有点经济学弹性概念内味[^2]）。在k层GCN中， $I(x,y)∝P_{rw'}(x\rightarrow y,k)$ （一个经微调的（没说咋调的，看意思应该是把转移矩阵换成 $\hat{\tilde{A}}$ ？）从 $x$ 开始的random walk distribution）。在 $k\rightarrow\infty$ 且图 irreducible and aperiodic 时，该值会趋于一个与 $x$ 无关的稳定分布（ $P_{lim}(\rightarrow y)$ ），这个分布可通过 $\pi_{lim}=\hat{\tilde{\mathbf{A}}}\ \pi_{lim}$ 计算得到。也就是说任何节点对该节点的影响程度最后会是一个相同的值，这样跟节点的局部信息就无关了。这样证明了GCN和RW的关系（我没仔细看JK文章，反正APPNP逻辑应该是这样），此外根据[BP][^3] 我们知道原始PageRank就是随机游走的稳定分布（ $\pi_{pr}=\mathbf{A}_{rw}\ \pi_{pr}$ ），体现整个图的全局结构。PPR的结果则会考虑到我们感兴趣的节点集，而APPNP本文对根节点感兴趣，也就相当于跑了个RWR（Random Walk with Restart）（ $\pi_{ppr}(\mathbf{i}_x)=(1-\alpha)\hat{\tilde{\mathbf{A}}}\pi_{ppr}(\mathbf{i}_x)+\alpha\ \mathbf{i}_x$ ）。这样从每个节点开始随机游走直至稳定最后得到的PPR就能保存根节点局部结构信息。 $I(x,y)$ ∝ PPR $\pi_{ppr}(\mathbf{i}_x)_y$ 与根节点有关。

Re0：读论文 PPNP/APPNP Predict then Propagate: Graph Neural Networks meet Personaliz

1. 模型构造思路

2. Notation和模型介绍

2.1 notation