原文链接:tecdat.cn/?p=7295
原文出处:拓端数据部落公众号
在这篇文章中,我用R语言和python检测社交网络中的社区。
建立网络
Kaggle数据 在110个.egonet文件中(对应于110个匿名Facebook用户),每个文件都包含他的朋友的网络。
让我们关注文件0.egonet,其中包含有关用户0的网络的所有信息。文件的每一行都是该行中直接属于网络一部分的第一个用户的朋友的列表。
1234 | 1: 146 189 229 201 204 ...2: 146 191 229 201 204 ...3: 185 80 61 188 22 222 ...4: 72 61 187 163 177 138 ... |
---|
在下面,我附加了访问每个egonet文件的Python代码,并构建了Networkx构造函数的节点和边的列表。 构建图后,将计算其邻接矩阵并将其保存在csv文件中。
import networkx as nx
from os import listdir
from os.path import isfile, join
from sklearn.cluster import KMeans
def load_egonet_files(path):
"""
给定.egonet文件的路径,则返回包含所有文件的列表。
"""
onlyfiles = [fyle for fyle in listdir(path) if fyle.endswith('.egonet')]
return onlyfiles
#########################################################################################################
提供的代码的结果是110个CSV文件,其中包含每个自我网络图的邻接矩阵。
检测社区
首先,让我们绘制一个图,看看它在社区聚类检测之前的样子。在R代码下方,从CSV文件加载数据,构建网络(我们使用0.egonet)并进行绘制。
#从csv文件读取图形
dat = read.csv('graph-0.csv', header=TRUE, row.names=1, check.names=FALSE)
m = as.matrix(dat)
# 从邻接矩阵构建图
g = graph.adjacency(m,mode="undirected",weighted=NULL)
# 绘制图形
R 提供了几种强大的社区检测算法。
模块化本质上是属于给定组的边缘的分数减去如果边缘随机分布的期望分数。所以越高越好。
在这里,您可以在用户0网络上找到结果。
> modularity(wc)
[1] 0.4629543
> modularity(wc)
[1] 0.4463902
> modularity(wc)
[1] 0.4330911
> modularity(wc)
[1] 0.4649535
> modularity(wc)
[1] 0.4511259
> modularity(wc)
[1] 0.4314803
spinglass.community算法是最好的算法,其模块化为0.4649。事实证明,可以发现小型自我社会网络中的社区 。
在下面,您也可以在R中发现检测到的群集的良好可视化效果。
最受欢迎的见解
1.采用spss-modeler的web复杂网络对所有腧穴进行分析
3.R语言文本挖掘NASA数据网络分析,tf-idf和主题建模
5.python隶属关系图模型 基于模型的网络中密集重叠社区检测