本文已参与「新人创作礼」活动，一起开启掘金创作之路。

本文首发于CSDN。

诸神缄默不语-个人CSDN博文目录 cs224w（图机器学习）2021冬季课程学习笔记集合

@[toc]

本章主要内容：本章首先介绍了图生成模型generative models for graphs的基本概念和意义。接下来介绍了一些真实世界网络的属性（度数分布、聚集系数、connected component、path length等，可参考[^1]）（也是图生成模型希望可以达到的要求）。最后介绍了一些传统的图生成模型（Erdös-Renyi graphs, small-world graphs, Kronecker graphs）。

1. (Traditional) Generative Models for Graphs

图生成模型问题的研究动机：我们此前的学习过程中，都假设图是已知的；但我们也会想通过graph generative model人工生成与真实图类似的synthetic graph，这可以让我们： ①了解图的形成过程。 ②预测图的演化。 ③生成新的图实例。 ④异常检测：检测一个图是否异常。
本课程对图生成模型的介绍流程：在本章介绍真实图的属性（生成图需要符合的特性）和传统图生成模型（每种模型都源自对图形成过程的不同假设）。在下一章介绍深度图生成模型，从原始数据直接学习到图生成过程。

2. Properties of Real-world Graphs

衡量真实图数据的属性有： degree distribution clustering coefficient connected components path length 对这些属性的介绍可参考[^1]
degree distribution $P(k)$ ：一个随机节点度数为 $k$ 的概率用 $N_k$ 表示度数为 $k$ 的节点数，则 $P(k)=N_k/N$ 相当于节点度数的归一化直方图：
clustering coefficient衡量节点邻居的连接紧密程度。节点 $i$ 的度数为 $k_i$ ，邻居间边数为 $e_i$ ，则其clustering coefficient为 $C_i=\dfrac{e_i}{C_{k_i}^2}=\dfrac{2e_i}{k_i(k_i-1)}$ ，即实际存在的邻居上的边数占所有邻居上可能存在的边数（ $C_{k_i}^2$ ）的比例。大小范围为 $[0,1]$ 。整个图上的clustering coefficient就是对每个节点的clustering coefficient取平均： $C=\dfrac{1}{N}\sum\limits_i^NC_i$
connectivity是largest connected component（任意两个节点都有路径相连的最大子图[^2]）的大小。 largest component=giant component 找到connected components（连通分量）的方法：随机选取节点跑BFS[^3]，标记所有被访问到的节点；如果所有节点都能访问到，说明整个网络都是连通的；否则就选一个没有访问过的节点重复BFS过程。
path length：一条路径的长度。节点对之间最短路径长度称为距离。 diameter：图中最大的节点对间最短路径。
connected graph 或 strongly connected directed graph[^4] 上的average path length： $\overline{h}=\dfrac{1}{2E_{max}}\sum\limits_{i,j\neq i}h_{ij}$ 其中 $h_{ij}$ 是节点 $i$ 到 $j$ 之间的距离， $E_{max}$ 是最大边数（即节点对数） $n(n-1)/2$
我们往往只在相连的节点对上求平均，即忽略infinite的路径长度
案例研究：MSN Graph（社交网络）（这个本来有个地图，但是它好像有点问题，在B站视频里直接码掉了，我也不敢放。总之就是一个地图，并说图数据中有180M用户节点、1.3B条边）
1. degree distribution 用线性坐标轴绘制就基本啥都看不清：用log-log双对数坐标绘制（数据不变，但是坐标轴换成对数的）：
2. clustering coefficient按度数分布：
3. weakly connected component[^4]大小的分布：
4. path length的分布：small word phenomenon：虽然图很大但是平均最短路径很小（6.6）。随机选择一个节点，90%节点都可以在8跳BFS内达到。[^5]
5. 这些核心属性在图上的最终结果：这些值是否超乎预料，需要通过图生成模型来检验。

3. Erdös-Renyi Random Graphs[^6]

Erdös-Renyi Random Graphs是最简单的图生成模型，有两种变体： $G_{np}$ ：有 $n$ 个节点的无向图，每条边 $(u,v)$ 以概率 $p$ 独立同分布生成。 $G_{nm}$ ：有 $n$ 个节点的无向图，随机生成 $m$ 条边。
$G_{np}$ ：图由随机过程生成，因此同样的 $n$ 和 $p$ 可以不同的图实例：
$G_{np}$ 的图属性值：
1. degree distribution 一个节点的度数为 $k$ 的概率，即图中度数为 $k$ 的节点所占比例的期望值服从二项分布[^7]： $P(k)=C_{n-1}^kp^k(1-p)^{n-1-k}$ （在除这个节点之外的 $n-1$ 个节点中有 $k$ 个节点与该节点以 $p$ 的概率相连，这一事件发生的概率）
$\overline{k} & =p(n-1) \\ \sigma^2 & =p(1-p)(n-1) \end{aligned}$$ ER随机图的度数分布类似于一个高斯分布的离散模拟。 ![在这里插入图片描述](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/32b9a737d307490cb6fdd8eaca9c2146~tplv-k3u1fbpfcp-zoom-1.image) 2. clustering coefficient 每个节点邻居中边数的期望值为 $E[e_i]=p\cdot C_{k_i}^2=p\cdot\dfrac{k_i(k_i-1)}{2}$<br> $E[C_i]=\dfrac{2E[e_i]}{k_i(k_i-1)}=\dfrac{p\cdot k_i(k_i-1)}{k_i(k_i-1)}=p=\dfrac{\overline{k}}{n-1}\approx\dfrac{\overline{k}}{n}$ random graph的clustering coefficient很小，如果我们保持平均度数 $k$ 不变、增大图尺寸（指固定 $p=k\cdot 1/n$），$C$ 会随图尺寸 $n$ 减小。 ![在这里插入图片描述](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/21ead4784b574b6f8e32742bba5eebf3~tplv-k3u1fbpfcp-zoom-1.image) 3. connected components 随着 $p$ 从0到1变化，CC会出现如图中数轴所示的变化[^8] 情况。 $\overline{k}=2E/n$ $p=\overline{k}/(n-1)$ $\overline{k}=1-\epsilon$ 时所有CC的尺寸都是 $\Omega(\log{n})$ $\overline{k}=1+\epsilon$ 时出现一个 $\Omega(n)$ 的CC，其他CC的尺寸还是 $\Omega(\log{n})$，每一个节点都至少期望有一条边 ![在这里插入图片描述](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/5d4796de0525405290dde7012aa3f2dc~tplv-k3u1fbpfcp-zoom-1.image) 这种平均度数在1上下会突然出现largest connected component的转变被称为phase transition[^12] behavior，如图所示，平均度数达到3的时候已经几乎所有节点都属于largest connected component了： ![在这里插入图片描述](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/4f1989d7d0634d258698a5fcbc88e1b3~tplv-k3u1fbpfcp-zoom-1.image) 4. $G_{np}$ 的degree distribution，clustering coefficient和connectivity：![在这里插入图片描述](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/7ac0580bd2504076ac313d8a51ece594~tplv-k3u1fbpfcp-zoom-1.image) 5. 定义图 $G(V,E)$ 上的概念expansion[^9] $\alpha$：对任意节点子集 $S$，伸出 $S$ 的边数（如图所示，指 $S$ 和 $V\backslash S$ 之间的边）大于等于 $\alpha\cdot\min(|S|,|V\backslash S|)$（这个 $\min$ 只是考虑到 $|S|$ 超过 $\frac{1}{2}|V|$ 的可能性，如果 $|S|$ 是小部分的话，可以直接大于等于 $\alpha|S|$）英文原文：if $\forall S\subseteq V$: # of edges leaving $S\geq\alpha\cdot\min(|S|,|V\backslash S|)$ 或等价于：$\alpha=\min\limits_{S\subseteq V}\dfrac{\#\ \text{edges leaving S}}{\min(|S|,|V\backslash S|)}$ ![在这里插入图片描述](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/932d1efd511a44cca9320a94c5b986a2~tplv-k3u1fbpfcp-zoom-1.image) 6. expansion是用来衡量鲁棒性的：为了disconnect $l$ 个节点（让一个CC中 $l$ 个节点不再属于这个CC），需要割断至少 $\alpha\cdot l$ 条边。（为什么是 $l$ 而不是 $\min(l,n-l)$呢，因为 $n-l$ 要是比 $l$ 还小这就不太对劲了，就不是这 $l$ 个节点被disconnect了而是对面被disconnect了对吧……在上文也说了一般这部分是小部分，所以可以直接用 $l$ 的） <br>如图所示，expansion越低的图越容易被disconnect。而社交网络就是在社区[^10]内部expansion高，在社区之间expansion低： ![在这里插入图片描述](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e72dcef1aab54896af5b2315db992f95~tplv-k3u1fbpfcp-zoom-1.image) 7. random graphs的expansion：事实：对于一个有 $n$ 个节点，expansion为 $\alpha$ 的图，节点对间存在长度为 $O((\log{n})/\alpha)$ 的路径。对随机图 $G_{np}$：对 $\log{n}＞np＞c,\ diam(G_{np})=O\big(\log{n}/\log{(np)}\big)$[^11] 如图所示，随机图有很好的expansion，所以BFS需要经对数级步数访问所有节点： ![在这里插入图片描述](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/ccd88c5831434f99a9b944e80ae9d772~tplv-k3u1fbpfcp-zoom-1.image) 8. 如果我们固定 $\overline{k}=np$，我们就可以得到图节点间最长的最短路径 $diam(G_{np})=O\big(\log{n}\big)$，Erdös-Renyi Random Graphs可以让节点在迅速增加时，shortest path length仍然增长很慢，如图所示：![在这里插入图片描述](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/f466cbb51a124c759b4a577709f00c72~tplv-k3u1fbpfcp-zoom-1.image)$
得到 $G_{np}$ 上的所有属性后，与MSN的属性对比，发现： MSN的degree distribution很偏，但 $G_{np}$ 是高斯分布。不相似。两种图的avg. path length都很短。相似。 $G_{np}$ 的聚集系数远小于MSN，失去了局部结构。不相似。 MSN绝大多数节点都属于GCC， $G_{np}$ 在 $\overline{k}＞1$ （示例中约等于14）时也存在GCC。在存在GCC方面相似，但真实图中的giant component并不通过phase transition[^12]出现。可见真实世界的图不是随机图。

4. The Small-World Model

发明小世界模型的动机：我们有高聚集系数、高diameter的regular lattice graph，也有低聚集系数、低diameter的 $G_{np}$ 随机图，但真实图是低diameter、高聚集系数的，我们希望找到一个能生成这种图的模型。
在同节点数、同平均度数的随机图的对比下，各种真实图都展示出了类似的特质：
在随机图和regular lattice graph中，这两个属性间却存在着矛盾：由于expansion的缘故，在固定平均度数时，随机图中的short paths为 $O(\log{n})$ 长但聚集系数也很低。而有局部结构的网络regular lattice graph有很多社交网络中常有的triadic closure（我朋友的朋友还是我的朋友），即高聚集系数，但diameter也很高。
我们希望在两种图间进行插值，得到结合二者特性，高聚集系数、低diameter的small-world graph：
small-world model[^13] 的方法：
1. 从一个低维regular lattice（这里表示成ring）开始，这个图有很高的聚集系数和diameter。
2. rewire：新增随机捷径，将本来较远的部分连接起来对每个边，以 $p$ 的概率将一端移到一个随机节点上（但这些公式是怎么得到的，我并不知道）
在下图中绿色箭头指向的区域，就是小世界模型适宜的参数区域：（能够得到这个合适区域的直觉理解：需要很多随机性才能破坏聚集系数，但仅需一点随机性就能产生捷径，所以就能得到高聚集系数、低diameter的中间的图）
总结[^14]：小世界模型提供了一个在clustering和small-world（指diameter小）之间交互的视角，捕获到了真实图的结构，解释了真实图中的高聚集系数，但其度数分布仍然并不符合真实图的情况。

5. Kronecker Graph Model

Kronecker Graph Model的idea：迭代式的图生成 self-similarity：物体自身总是与其部分相似。我们模仿图/社区的迭代式增长，如图所示不断重复同样的图的生成过程。 Kronecker product克罗内积就是一种生成self-similar矩阵的方式。
Kronecker graph[^15]：从小矩阵（ $K$ ）开始，通过克罗内积 $\otimes$ 生成大的邻接矩阵（这个东西看起来有点分形的感觉噢……但是这个self-similar的是邻接矩阵，其实也不是图本身）
克罗内积定义：矩阵 $A$ 和 $B$ 的克罗内积

cs224w（图机器学习）2021冬季课程学习笔记17 Traditional Generative Models for Graphs

1. (Traditional) Generative Models for Graphs

2. Properties of Real-world Graphs

3. Erdös-Renyi Random Graphs[^6]

4. The Small-World Model

5. Kronecker Graph Model