图分析总结

1,053 阅读7分钟
原文链接: tryanswer.github.io

图分析是知识图谱(Knowledge Graph)图结构消费的重要组成部分,基于图分析算法的应用近年来层出不穷,比如:Palantir利用关联分析指导复杂战场环境下的军事行动、天眼查发现企业关联关系、拓尔思水晶球、宜信金融反欺诈等等。

本文首先对图分析算法进行归纳总结,后期将结合现有的工具,详细介绍图分析每个算法的实现以及应用案例。

图度量

节点度量

节点度量 描述 参考资料
度中心性
Degree centrality
与节点连接的数据量,如果是有向图,则分为入度和出度 lecture
介数中心性
Betweenness centrality
指其它两个节点的所有最短路径都经过这个节点,
则这些所有最短路径数即为此节点的介数中心性。
可用来鉴别网络中的“信息中间人”或者聚类后的联结点
紧密中心性
Closeness centrality
指节点到网络中所有其他节点的平均距离的倒数 Sabidussi
特征向量中心性
Eigenvector centrality
指节点在网络中的重要程度,比PageRank更泛 Newman
HITS
Hpyerlink - Induced Topic Search
使用(Hub, Authority)描述节点重要性
- Hub 枢纽性,指包含了很多指向高质量Authority
面链接的页面,如hao123
- Authority权威性,指与某个领域或者某个话题相关的
高质量网页,比如视频领域youtobe

- 两个假设:

1. 一个好的Authority会被很多好的Hub指向
2. 一个好的Hub页面会指向很多好的Authority
Kleinberg
Neighbordhood Connectivity 给定节点的邻居的平均连通性(度中心性) Maslov
Vertex Embeddedness 给定节点的邻居的平均嵌入度 Dong
Local Clustering Coefficient 给定节点的邻居的现有连接数量除以邻居节点集合全部
可能的连接数量,用于衡量邻居节点的紧密程度
Watts

边度量

边度量 描述 参考资料
Adamic/Adar 给定两个顶点的公共邻居中心度的倒数和 Adamic
Common Neighbours 给定两个顶点的公共邻居节点数量 Newman

图度量

图度量 描述 参考资料
Freeman’s network centrality 描述网络中节点度中心性的不均匀程度 Freeman
Modularity 网络分成社区(模块、集群)的强度 lecture
Newman

社区发现

同一社区内的节点与节点之间的连接很紧密,而社区与社区之间的连接比较稀疏

社区发现主要面向非重叠社团发现和重叠社团发现两类问题。所谓重叠性,是指单个顶点并非仅仅属于一个社团,而是可以属于多个社团。社团与社团由这些有重叠归属的顶点相连。

  • 非重叠社团发现算法
方法 描述 参考资料
基于模块度优化的社团发现 优化模块度Q值的算法 - 采用聚合思想 FN CNM MSGMV
- 采用分裂思想 GN 谱方法
- 直接寻优法 EO
基于谱分析的社团发现 将节点对应的矩阵特征分量看
成空间坐标,将网络节点映射
到多维向量空间,运用传统的
聚类算法将他们聚集成社团
-
基于信息论的社团发现 模拟退火优化算法和随机游走 Rosvall Random Walks
基于标签传播的社团发现 网络的边很多时候代表信息的传播 LPA
  • 重叠社团发现算法
方法 描述 资料
基于团渗透改进的社团发现 以团为基本单元来发现重叠,这对于很多真
实网络尤其是稀疏网络而言,限制条件过于严
格,只能发现少量的重叠社团
CPM SCP
基于种子扩散思想的社团发现 基本思想是以具有某种特征的子网络为种子,
通过合并、扩展等操作向邻接节点扩展,直至
获得评价函数最大的社团
LFM
基于混合概率模型的社团发现 以概率方法对复杂网络的社团结构进行探索,
以求得期望最大的社团结构,从而避开社团定义的问题
Newman
基于边聚类的社团发现 以边为研究对象 Line Graphs, Link Partitions
Yong-Yeol Ahn

频繁子图挖掘

Frequent sub graph discovery is a process of identifying frequently occuring sub graphs from a set of graphs or a single large graph with frequency of occurrence is no less than a specified threshold.

频繁子图挖掘一般包含以下两种方法:Apriori-based 和 Pattern growth based

  • Apriori-based

    If a graph is frequent, all of its subgraphs are frequent.

方法 描述 参考资料
AGM/AcGM - AGM
FSG - FSG
FFSM - FFSM1
FFSM2
  • Pattern growth based
方法 描述 参考资料
Subdue 基于最小描述长度原则 MDL来发现子结构
- 定义:S是图G的一个子结构,I(S)表示子结构S的描述长度,I(G|S)表示在图G中使用单个顶点替换子结构S后得到的图的描述长度

- 寻找最优子结构:使得I(S) = v\ bits + r\ bits + e\ bits最小的子结构SS即为频繁子图。
其中v\ bits表示表示编码图的顶点标签所需的bit位数:
v bits=lg v+v lg lu​
r\ bits表示编码邻接矩阵 A的各行所需的bit位数:
r bits=lg(b+1)+v∑i=0lg(b+1) +lg C(v,ki)​
其中b=max_ik_ik_i表示邻接矩阵Ai行中为1的个数
e\ bits表示编码邻接矩阵A中以A[i,j]=1所表示的边所需的 bit位数:
e bits=lg m + v∑i=1v∑j=1lg m+e(i,j)[1+lg lu]​

- 过程:初始枚举单节点最优子结构,然后由此进行迭代。在每次迭代中,算法选择最优子结构后,通过增加一个顶点扩展当前子结构,直到所有的最优子结构都被列出或者所需考虑的候选最优子结构数量达到一定限制
SUBDUE
gSpan - Xifeng Yan网站
Gaston - Gaston网站
CMTreeMiner - CMTreeMiner

链接预测

通过已知的网络节点以及网络结构等信息预测网络中尚未产生连边的两个节点之间产生链接的可能性 ,包括对未知链接的预测和未来链接的预测

  • 基于相似性的链路预测 Similarity-based methods

假设两个节点之间相似性越大,它们之间存在链接的可能性就越大。如何定义节点之间的相似性成为基于节点相似性的链路预测方法的核心问题,根据不同的相似性度量方法,可将该类相似性指标分为基于局部信息的相似性指标、基于路径的相似性指标和基于随机游走的相似性指标

方法 描述 参考资料
基于局部信息的相似指标 - 共同邻居 (CN) -
基于路径的相似性指标 - -
基于随机游走的相似性指标 - -
  • 基于概率统计方法 Probabilistic and statistical method

基本思想是建立一个含有一组可调参数的模型,然后使用优化策略寻找最优的参数值,使得所得到的模型能够更好地再现真实网络的结构和关系特征,网络中两个未连边的节点对连边的概率就是等于在改组最优参数下它们之间产生连边的条件概率

方法 描述 参考资料
概率关系模型 PRMs - -
有向无环概率实体关系模型 DAPER - -
  • 基于最大似然估计的链路预测

很多网络的连接可以看作某种内在的层次结构的反映

方法 描述 参考资料
层次结构模型 - -
随机分块模型 - -

参考资料