持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第25天,点击查看活动详情
图聚类
图聚类是网络中发现社区和群体的的一项基本任务,最近的研究主要集中在紧凑图嵌入(compact graph embedding)的深度学习方法,在此基础上应用了经典的聚类算法(k-means, 谱聚类)。但是由于图嵌入不是目标导向的,所以导致这种两步框架很难操作,而且通常会导致次优的性能。
基于此,论文作者提出了一种以目标导向的深度学习方法----深度注意嵌入图聚类(简称DAEGC)。该方法侧重于属性图,以充分探究图中信息的两个方面。通过使用注意力网络捕获相邻节点对目标节点的重要性,将图形中的拓扑结构和节点内容编码为紧凑的表示形式,训练内部乘积解码器以重构图形结构。
论文创新点
- 论文中最先提出图注意编码器,可以有效整合结构和内容的信息;
- 提出了一个新的属性图聚类框架,该框架联合优化了嵌入学习和图聚类,且经过大量实验证明,该算法可以达到SOTA。
DAEGC模型
在图聚类和深度聚类算法的基础上,作者提出了DAEGC模型,如下图所示。
我们可以看到,模型包括两个部分:Graph Attentional Autoencoder 和 Self-training Clustering。 首先自编码器由属性值 和 图形结构 为输入,通过 学习潜在表示,并使用 模块 对其进行聚类,并根据聚类结果对潜在表示进行操作。
通过对每个节点的 邻居节点的学习 得到每个节点的潜在表示,从而将 属性 与 结构信息 融入潜在表示中。
其中,代表节点 的输出表示, 代表 节点的邻居, 代表 节点邻居的注意力系数,σ代表非线性函数。
对于注意力系数,主要考虑 属性值 和 拓扑距离 两个方面,文中对其进行了定义计算。之后,作者堆叠了两个 ,使得编码器编码了结构和属性信息。并采用 来预测节点之间的连接,并得到重建损失:
自优化嵌入模块思想 与之前讲解的论文中的 DEC模型 相类似,采用了计算t分布进行软分配以及最小化 KL损失函数:
最后,对嵌入和聚类进行联合优化,最终损失函数为: