开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第4天

本文首发于CSDN。

诸神缄默不语-个人CSDN博文目录 cs224w（图机器学习）2021冬季课程学习笔记集合

@[toc]

本章主要内容：本章首先介绍了网络中社区community（或cluster / group）的概念，以及从社会学角度来证明了网络中社区结构的存在性。接下来介绍了modularity概念衡量community识别效果。然后介绍了Louvain算法[^8]识别网络中的community。对于overlapping communiteis，本章介绍了BigCLAM[^14] 方法来进行识别。

1. Community Detection in Networks

图中的社区识别任务就是对节点进行聚类
networks & communities 网络会长成图中这样：由多个内部紧密相连、互相只有很少的边连接的community组成。
从社会学角度理解这一结构：在社交网络中，用户是被嵌入的节点，信息通过链接（长链接或短链接流动）。以工作信息为例，Mark Granovetter 在其60年代的博士论文[^1] 中提出，人们通过人际交往来获知信息，但这些交际往往在熟人（长链接）而非密友（短链接）之间进行，也就是真找到工作的信息往往来自不太亲密的熟人。这与我们所知的常识相悖，因为我们可能以为好友之间会更容易互相帮助。 Granovetter认为友谊（链接）有两种角度：一是structural视角，友谊横跨网络中的不同部分。二是interpersonal视角，两人之间的友谊是强或弱的。 Granovetter在一条边的social和structural视角之间找到了联系：
1. structure：structurally/well embeded / tightly-connected 的边也socially strong，长距离的、横跨社交网络不同部分的边则socially weak。也就是community内部、紧凑的短边更strong，community之间、稀疏的长边更weak。
2. information：长距离边可以使人获取网络中不同部分的信息，从而得到新工作。structurally embedded边在信息获取方面则是冗余的。也就是说，你跟好友之间可能本来就有相近的信息源，而靠外面的熟人才可能获得更多新信息。
triadic closure triadic：三元; 三色系; 三色; 三重; 三合一; community (tightly-connected cluster of nodes) 形成原因：如果两个节点拥有相同的邻居，那么它们之间也很可能有边。（如果网络中两个人拥有同一个朋友，那么它们也很可能成为朋友） triadic closure = high clustering coefficient[^2] triadic closure产生原因：如果B和C拥有一个共同好友A，那么B更可能遇见C（因为他们都要和A见面），B和C会更信任彼此，A也有动机带B和C见面（因为要分别维持两段关系比较难），从而B和C也更容易成为好友。 Bearman和Moody的实证研究[^3] 证明，clustering coefficient低的青少年女性更容易具有自杀倾向。
多年来Granovetter的理论一直没有得到验证，但是我们现在有了大规模的真实交流数据（如email，短信，电话，Facebook等），从而可以衡量真实数据中的edge strength。
举例：数据集Onnela et al. 2007[^4] 20%欧盟国家人口的电话网络，以打电话的数量作为edge weight
edge overlap 两个节点 $i$ $j$ 之间的edge overlap，是除本身节点之外，两个节点共同邻居占总邻居的比例： $O_{ij}=\frac{|\big(N(i)\cap N(j)\big)-\{i,j\}|}{|\big(N(i)\cup N(j)\big)-\{i,j\}|}$ overlap=0 时这条边是local bridge
当两个节点well-embeded或structurally strong时，overlap会较高。图中左上角overlap：0/6 图中右上角overlap：2/6 图中左下角overlap：4/6 图中右下角overlap：6/6
在电话网络[^4] 中，edge strength（电话数）和edge overlap之间具有正相关性：图中蓝色是真实数据，红色是重新排列edge strength之后的数据（对照组）：在真实图中，更embeded（密集）的部分edge strength也更高（红）：相比之下，strength被随机shuffle之后的结果就没有这种特性：从strength更低的边开始去除，能更快disconnect网络（相当于把community之间的边去掉）：从overlap更低的边开始，disconnect更快：
从而，我们得到网络的概念图：由structurally embeded的很多部分组成，其内部链接更强，其之间链接更弱：

2. Network Communites

network communites就是这些部分（也叫cluster，group，module）：一系列节点，其内部有很多链接，与网络其他部分的外部链接很少
我们的目标就是给定一个网络，由算法自动找到网络中的communities（densely connected groups of nodes）
以Zachary’s Karate club network来说，通过社交关系创造的图就可以正确预判出成员冲突后会选择哪一边[^5]：
在付费搜索领域中，也可以通过社区识别来发现微众市场：举例来说，节点是advertiser和query/keyword，边是advertiser在该关键词上做广告。在赌博关键词中我们可以专门找到sporting betting这一小社区（微众市场）：
NCAA Football Network 节点是球队，边是一起打过比赛。通过社区识别算法也可以以较高的准确度将球队划分到不同的会议中：
定义modularity[^6] $Q$ 衡量网络的一个社区划分partitioning（将节点划分到不同社区）的好坏程度：
已知一个划分，网络被划分到disjoint groups $\mathbf{s}\in\mathbf{S}$ 中：

cs224w（图机器学习）2021冬季课程学习笔记16 Community Detection in Networks

1. Community Detection in Networks

2. Network Communites