图分析总结

图分析是知识图谱（Knowledge Graph）图结构消费的重要组成部分，基于图分析算法的应用近年来层出不穷，比如：Palantir利用关联分析指导复杂战场环境下的军事行动、天眼查发现企业关联关系、拓尔思水晶球、宜信金融反欺诈等等。

本文首先对图分析算法进行归纳总结，后期将结合现有的工具，详细介绍图分析每个算法的实现以及应用案例。

图度量

节点度量

节点度量	描述	参考资料
度中心性 Degree centrality	与节点连接的数据量，如果是有向图，则分为入度和出度	lecture
介数中心性 Betweenness centrality	指其它两个节点的所有最短路径都经过这个节点，则这些所有最短路径数即为此节点的介数中心性。可用来鉴别网络中的“信息中间人”或者聚类后的联结点
紧密中心性 Closeness centrality	指节点到网络中所有其他节点的平均距离的倒数	Sabidussi
特征向量中心性 Eigenvector centrality	指节点在网络中的重要程度，比PageRank更泛	Newman
HITS Hpyerlink - Induced Topic Search	使用`(Hub, Authority)`描述节点重要性 - Hub 枢纽性，指包含了很多指向高质量`Authority`页面链接的页面，如`hao123` - Authority权威性，指与某个领域或者某个话题相关的高质量网页，比如视频领域`youtobe` - 两个假设： 1. 一个好的`Authority`会被很多好的`Hub`指向 2. 一个好的`Hub`页面会指向很多好的`Authority`	Kleinberg
Neighbordhood Connectivity	给定节点的邻居的平均连通性（度中心性）	Maslov
Vertex Embeddedness	给定节点的邻居的平均嵌入度	Dong
Local Clustering Coefficient	给定节点的邻居的现有连接数量除以邻居节点集合全部可能的连接数量，用于衡量邻居节点的紧密程度	Watts

边度量

边度量	描述	参考资料
Adamic/Adar	给定两个顶点的公共邻居中心度的倒数和	Adamic
Common Neighbours	给定两个顶点的公共邻居节点数量	Newman

图度量

图度量	描述	参考资料
Freeman’s network centrality	描述网络中节点度中心性的不均匀程度	Freeman
Modularity	网络分成社区（模块、集群）的强度	lecture Newman

社区发现

同一社区内的节点与节点之间的连接很紧密，而社区与社区之间的连接比较稀疏

社区发现主要面向非重叠社团发现和重叠社团发现两类问题。所谓重叠性，是指单个顶点并非仅仅属于一个社团，而是可以属于多个社团。社团与社团由这些有重叠归属的顶点相连。

非重叠社团发现算法

方法	描述	参考资料
基于模块度优化的社团发现	优化模块度Q值的算法	- 采用聚合思想 FN CNM MSGMV - 采用分裂思想 GN 谱方法 - 直接寻优法 EO
基于谱分析的社团发现	将节点对应的矩阵特征分量看成空间坐标，将网络节点映射到多维向量空间，运用传统的聚类算法将他们聚集成社团	-
基于信息论的社团发现	模拟退火优化算法和随机游走	Rosvall Random Walks
基于标签传播的社团发现	网络的边很多时候代表信息的传播	LPA

重叠社团发现算法

方法	描述	资料
基于团渗透改进的社团发现	以团为基本单元来发现重叠，这对于很多真实网络尤其是稀疏网络而言，限制条件过于严格，只能发现少量的重叠社团	CPM SCP
基于种子扩散思想的社团发现	基本思想是以具有某种特征的子网络为种子，通过合并、扩展等操作向邻接节点扩展，直至获得评价函数最大的社团	LFM
基于混合概率模型的社团发现	以概率方法对复杂网络的社团结构进行探索，以求得期望最大的社团结构，从而避开社团定义的问题	Newman
基于边聚类的社团发现	以边为研究对象	Line Graphs, Link Partitions Yong-Yeol Ahn

频繁子图挖掘

Frequent sub graph discovery is a process of identifying frequently occuring sub graphs from a set of graphs or a single large graph with frequency of occurrence is no less than a specified threshold.

频繁子图挖掘一般包含以下两种方法：Apriori-based 和 Pattern growth based

Apriori-based

If a graph is frequent, all of its subgraphs are frequent.

方法	描述	参考资料
AGM/AcGM	-	AGM
FSG	-	FSG
FFSM	-	FFSM1 FFSM2

Pattern growth based

方法	描述	参考资料
Subdue	基于最小描述长度原则 MDL来发现子结构 - 定义： $S$ 是图 $G$ 的一个子结构， $I(S)$ 表示子结构 $S$ 的描述长度， $I(G\|S)$ 表示在图 $G$ 中使用单个顶点替换子结构 $S$ 后得到的图的描述长度 - 寻找最优子结构：使得 $I(S) = v\ bits + r\ bits + e\ bits$ 最小的子结构 $S$ ， $S$ 即为频繁子图。其中 $v\ bits$ 表示表示编码图的顶点标签所需的 $bit$ 位数： v bits=lg v+v lg lu $r\ bits$ 表示编码邻接矩阵 $A$ 的各行所需的 $bit$ 位数： r bits=lg(b+1)+v∑i=0lg(b+1) +lg C(v,ki) 其中 $b=max_ik_i$ ， $k_i$ 表示邻接矩阵 $A$ 第 $i$ 行中为 $1$ 的个数 $e\ bits$ 表示编码邻接矩阵 $A$ 中以 $A[i,j]=1$ 所表示的边所需的 $bit$ 位数： e bits=lg m + v∑i=1v∑j=1lg m+e(i,j)[1+lg lu] - 过程：初始枚举单节点最优子结构，然后由此进行迭代。在每次迭代中，算法选择最优子结构后，通过增加一个顶点扩展当前子结构，直到所有的最优子结构都被列出或者所需考虑的候选最优子结构数量达到一定限制	SUBDUE
gSpan	-	Xifeng Yan网站
Gaston	-	Gaston网站
CMTreeMiner	-	CMTreeMiner