携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第7天,点击查看活动详情
前言
Hello! 非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ 自我介绍 ଘ(੭ˊᵕˋ)੭ 昵称:海轰 标签:程序猿|C++选手|学生 简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖...已保研。 学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语! 唯有努力💪
知其然 知其所以然!
本文仅记录自己感兴趣的内容
简介
原文链接:www.sciencedirect.com/science/art…
期刊:Information Sciences (CCF B类)
年度:2021/07/16
Abstract
网络嵌入已成功地应用于复杂网络中的节点聚类、社区检测、链路预测和演化分析等多种任务
对于给定的网络,嵌入方法通常基于一阶邻近性、二阶邻近性、团体约束等设计
但是,它们不能捕获节点的结构相似性
临近度小、位于不同社区的桥梁节点,由于其周边结构相同,其嵌入空间应相近
在本文中,这些结构特征被称为低阶信息,它可以揭示和修改嵌入空间中节点的结构相似性
具体来说,我们提出利用网络的低阶信息构造特征矩阵
- 为了有效地将节点的结构特征融合到嵌入空间中,提出了一种直观、可解释、可行的LONE-NMF方法,该方法采用了基于非负矩阵分解的表示学习框架
- 通过保留邻近性和低阶信息,可以有效学习网络中节点的表示向量
此外,还设计了LONE-NMF算法的优化算法
大量基于聚类和链接预测的实验表明,该方法与部分基准相比,性能有显著提高
最后,通过实例验证了LONE-NMF的原理和优势
1. Introduction
复杂网络分析已经受到越来越多的关注,并被应用于许多现实场景,如社会网络、引文网络、生物网络和蛋白质相互作用网络[1-4]
网络嵌入是在复杂网络中兴起的一种重要表示技术,它旨在学习网络中节点的低维表示,同时保留其内部结构和特征[5]
受益于此,基于现成机器学习方法的各种网络分析任务,如节点分类[6,7]、节点聚类[8]、节点可视化[9]、链路预测[10,11],可以在低维嵌入空间中很好地直观地得到支持
目前,大多数研究人员致力于将邻域结构信息(一阶)、二阶甚至更高阶的邻近性和社区约束保留到嵌入空间中来学习节点的表示,并有许多方法被报道
- 例如,基于随机行走的DeepWalk[5]将邻域结构信息保留到网络嵌入中
- LINE[12]将节点之间的一阶和二阶邻近性集成到嵌入学习阶段
- 为了保存更多的结构信息,一些方法被提出来获取更高阶的节点接近度[13,14]
此外,一些研究利用社区结构信息来增强节点嵌入
- Wang等人[8]提出了一种模块化非负矩阵分解(M-NMF)框架,该框架将社区结构和节点的两两邻近性融合到一个低维向量空间中
然而,为了保证有效性,对于这些基于社区的方法,应该提前指定社区K的数量,而在大多数真实的网络中,K通常是不可用的或难以指示的
此外,对于社团结构较弱的网络(社团内边缘接近社团间边缘),可能会出现过平滑问题,即网络中节点的表示过于相似而无法区分。
虽然这些方法在不同的网络任务上都取得了良好的性能,但它们往往忽略了节点与其周围节点之间的相互作用(结构相似性),即节点与其邻居之间的连接模式
通常表示为结构相似度,表示星形中心、星形边、近团或桥节点等结构模式作为不同子图的桥梁,这些模式可以反映节点[15]的身份或“行为”
属于同一结构类别的两个节点不需要用边连接
事实上,同一个社区中的节点可能具有不同的结构功能,但不同社区中的节点可能具有相同的结构相似性
在此,我们将这些结构特征定义为网络的低阶信息
最近,一些研究[15-17]报道这种低阶信息可以增强角色发现的过程,这与社区的概念不同
因此,为了全面学习网络嵌入,需要保留低阶信息
我们面临的主要障碍之一是如何有效地将接近性和低阶信息融合到嵌入空间中,从而学习到每个节点更有信息性和鉴别性的表示
本文提出了一种基于非负矩阵分解(long - nmf)的低阶信息保留网络嵌入方法
考虑到非负矩阵分解[18](Non-negative Matrix Factorization, NMF)的可解释性和可加性,其矩阵没有负元素用于降维和聚类,NMF可以在保持数据之间内在相关性的同时,有效地将多重信息映射到低维空间
LONE-NMF将结构相似性集成到NMF中,既保留了低阶信息,又保持了相似性
- 首先,递归地结合节点的局部结构特征和邻居结构特征,得到能表示网络低阶信息的结构特征矩阵
- 然后,考虑到邻接矩阵的矩阵分解可以获取节点的局部信息(如连接紧密度[19]),我们通过融合结构特征矩阵和邻接矩阵,精心设计了一个在NMF下的统一损失函数
- 最后,我们采用迭代乘法更新算法对损失函数进行优化,以学习网络中节点的综合嵌入
在各种真实网络上的大量实验表明,该模型比最新的嵌入方法具有优势
此外,我们对一些子网络进行了分析,并进行了案例分析,可以有效地揭示我们的方法的原理和优势
总而言之,我们的主要贡献如下:
- 我们提出了一种高效、可扩展的网络嵌入算法LONE-NMF,该算法增强了结构相似性约束在嵌入空间中的作用,突破了上述局限性
- 我们将接近性和低阶信息结合到NMF框架中。为了获取低阶信息,我们递归地结合网络中节点的局部结构特征和邻域结构特征构造结构特征矩阵
- 为了有效地评估所提出的模型,我们进行了大量的实验,包括在几个真实数据集上进行多标签分类、聚类和链接预测。结果表明,该方法的性能优于基准方法
2. Related work
在本节中,我们简单描述了网络嵌入和非负矩阵分解,这有助于理解我们的模型。
2.1. Network embedding
网络嵌入作为一种有效的、高效的网络表示方法,近年来已成为一个非常活跃的领域,并提出了许多方法
如前所述,随机游走、矩阵分解和深度学习在网络表示学习[20]中得到了广泛的应用
基于随机行走的模型以word2vec[21]为动机,通过为节点生成随机路径来获取邻域信息,并将随机路径视为句子来学习表示
例如
- DeepWalk[5]为网络中的每个节点生成随机行走序列,并将节点序列视为word2vec中的句子。然后,将这些序列输入到自然语言处理的经典语言模型Skip-Gram[21]中学习网络表示。然而,DeepWalk的表现力不足以捕捉网络中连接模式的多样性
- 为了克服这一限制,node2vec[22]对随机游走策略进行了修改,通过定义两个参数来平衡深度优先抽样(DFS)和宽度优先抽样(BFS),从而能够捕获更全面的节点邻域信息
- Tang等人[12]提出了用于大规模网络嵌入的LINE,它集成了一阶接近和二阶接近来学习节点的表示。一阶邻近性从直接连接的节点学习,二阶邻近性从节点的共享邻域结构学习。而LINE则分别研究网络的局部信息和全局信息,最后将两个表示向量简单地连接起来 -此外,为了捕捉更多的内部特征,提出了一系列保持高阶邻近性的模型[14,23]。
为了提高非线性表达能力和解决次优网络嵌入问题
- SDNE[13]通过半监督神经网络模型联合优化一阶和二阶邻近性。无监督部分重构二阶邻近度来保持网络的全局结构,监督部分利用一阶邻近度作为监测信息来保持网络的局部结构
- 此外,DVNE[24]集成了一个深度变分模型,并将原始数据映射到Wasserstein空间来学习节点的潜在表示。DVNE保持了一阶和二阶的接近性以及节点的不确定性,有利于现实世界中具有完全不确定性的网络。
矩阵分解作为一种有效的降维方法也被用于网络嵌入
奇异值分解(Singular Value Decomposition, SVD)是矩阵分解模型系列中常用的方法[11,25] 作为标准矩阵分解(MF)的一种变体,NMF[18]通过在矩阵上增加非负约束来增强可解释性和可加性,通常用于获得节点的嵌入
最近的一项研究[26]表明,带有负采样的跳跃图隐含了一个词-上下文矩阵分解
这个矩阵的条目表示对应词及其上下文的正向点互信息(PPMI)
具体来说,他们通过SVD对PPMI矩阵进行分解,得到单词的低维表示
在此理论基础上,Qiu et al.[27]证明了采用负采样的模型DeepWalk、LINE、node2vec和PTE对矩阵进行封闭分解,验证了他们的模型在传统网络挖掘任务中优于DeepWalk和LINE
2.2. Non-negative matrix factorization
给定一个数据矩阵
其中
- 为数据点的数量
- 为数据的维数
非负矩阵分解(NMF)的目的是找到两个非负矩阵和
使它们的乘积近似于原始矩阵
其中
- 是潜在空间的维数或底层数据的秩
- 是基矩阵
- 是系数矩阵
这里,每个数据点也可以写成
其中表示的基向量或潜在特征向量
这意味着观测被分解为基向量的加性线性组合
作为一种流行的低秩矩阵分解模型,NMF已被应用于社区检测、链路预测和网络嵌入等各种数据挖掘任务
已有大量研究证明了NMF在社区检测中的有效性[28-31]
一般情况下,基于NMF框架的社区检测方法是通过将网络的相邻矩阵分解为低秩因子矩阵来获得节点的社区关系[33,31]
其他添加各种约束的相关方法可参考[8,33]等
除了团体检测之外,NMF还因其出色的矩阵分解描述网络性质的能力而被广泛应用于链路预测[34-38]
最近,对于网络嵌入
- PPNMF (Proximity Preserving Non-negative Matrix Factorization, PPNMF)[39]算法在其损失函数中分别保持了一阶邻近性和二阶邻近性
- Wang et al.[8]提出了一种模块化非负矩阵分解(M-NMF)框架,该框架同时研究了低维向量空间中的群落结构和一阶和二阶相似性。特别地,他们为社团结构定义了一个模块化约束项,并通过对节点相似性矩阵进行分解来保持一阶相似性和二阶相似性
为了提高效率,考虑了节点之间的高阶接近性,这对于把握网络的全局特征非常关键
然而,为了区分网络和目标应用,通常需要不同阶的接近度
因此
- Zhang等人[40]提出了一种基于AROPE的SVD框架,该框架可以跨任意阶变换嵌入向量,并展示它们之间的内在关系
- 上述基于NMF的算法主要采用浅层方法,不能反映原始网络与嵌入空间之间的非线性关系。Ye等人[41]在NMF中加入了一个编码器组件和解码器组件来捕获隐藏特性
很明显,以上的网络嵌入框架几乎都只考虑节点之间的邻近性或共同体属性,从而丢失了节点及其邻域的交互信息
因此,在本文中,我们将揭示节点与周围环境相互作用的结构相似性纳入到一个NMF框架中
3. Methods
在本节中,我们将详细介绍我们提出的方法LONE-NMF
LONE-NMF同时保留了结构相似性信息(连接方式)和接近性信息(连接紧密程度),如图1所示
3.1. Notations
给定一个无向网络
- 个节点和条边
- 表示节点集合
- 表示节点间边的集合
邻接矩阵表示
- 如果节点和节点之间存在边,则为,否则为
- 由于网络是无向的,是一个对称矩阵
对于每个节点,其邻域集合记为
此外,egonet在社会网络分析中应用广泛,它可以描述节点的邻居信息
一个特定节点的自我网络中的节点集合包括该节点(自我)和它的邻居,边集合包括这些节点上子图中的任何边
节点v的egonet记为
-
和分别表示egonet中的节点和边的集合
-
-
-
表示包含节点的三角形集合
-
表示其大小(也就是三角形的数量)
矩阵保留了网络中节点的结构相似特征
- 其中为特征的维数
- 的第行表示节点的结构特征
我们的目的是学习节点的表示
其中是表示的维数
表1列出了这些术语和符号
3.2. LONE-NMF
提出的LONE-NMF是在NMF框架下,同时考虑了低阶信息和邻近性
我们定义结构相似特征,包括局部和邻居结构特征,作为低阶信息
在本节中,我们首先介绍如何对低阶信息进行编码,然后将其集成到一个基于NMF的统一模型中
Lower-Order Information Encoder
本文通过提取节点的结构特征来获取节点的低阶信息。整体流程如算法1所示
具体来说,受ReFeX[42]的启发,我们采用了两种类型的特性,即节点的local和egonet特性作为初始输入
我们一共提取了6类节点的特征,汇总在表2中
我们构造了主结构特征矩阵,它的行是一个维向量,对应这个特征,每个特征都由一个跟随[42]的四维一热向量编码
在的基础上,我们通过计算每个egonet中节点特征的和和均值来聚合特征:
- 其中是一个对角矩阵,其对角元素是节点的度,即
- 是图的邻接矩阵,表示串联算子
然后,我们继续递归地聚合特性(Alg. 1,第5-9行)。随着递归次数的增加,我们可以逐渐了解到更丰富的结构特征
The Unified Network Embedding Model
在本节中,我们旨在将上述结构相似性特征矩阵整合到框架中,以指导最终表示矩阵的学习过程
在NMF中,我们引入了一个非负基矩阵和一个非负表示矩阵
- 其中为中结构类型的数量
- 为节点与结构相似性类别之间的关系
然后,我们利用这两个矩阵来近似结构相似特征矩阵,得到如下目标函数:
- 式中为矩阵的Frobenius范数
在这里,我们引入了一个辅助矩阵,其中
- 是待学习的节点嵌入的维数
- 的每一行表示结构类型的映射向量
矩阵保留了节点与结构类别之间的倾向,可以对所有节点的嵌入提供有效的指导
因此,我们希望 对嵌入矩阵进行重构
结合目标函数(Eq.(1)),我们方法的最终损失函数可以表示为:
- 其中和是调整相应项贡献的正参数
Optimization
由于(式(2))中的目标函数不是凸的,用导数计算最优解是不切实际的
其中,考虑有4个参数矩阵进行优化时
我们将目标函数分为四个子问题,这样我们就可以通过最大化-最小化框架[43]计算每个问题的局部最小值
我们采用的更新策略是交替优化,即在更新一个矩阵的同时固定其他三个矩阵
...(略)
优化算法如下
3.3. Complexity analysis
4. Experiments
4.1. Datasets and experimental settings
4.2. Baseline methods
4.3. Node clustering
4.4. Link prediction
4.5. Parameter analysis
4.6. Visualization
4.7. Case study
5. Conclusion and future work
在本文中,我们提出了一种新的基于神经网络模型的学习复杂网络中节点嵌入的新模型
我们定义了低阶信息,模型可以同时保留结构相似性和结构特征,从而对节点进行更统一、更全面的建模
在优化阶段,我们提出采用交替优化算法对模型中的参数进行有效的训练
在节点聚类、链接预测、可视化任务和实例研究等方面的大量实验结果表明,该方法能够学习到更有效的节点嵌入向量
在这项工作中,我们只关注无向和无加权网络,但在有向和加权网络中探索保留更多的固有特征将是有趣的
此外,如何在保持精度的同时提高计算效率也是一个有趣的话题
读后总结
2022/07/19 第一次阅读
文章大概思路
- 使用refex提取特征矩阵
- 利用邻接矩阵和聚合,得到新的特征矩阵
- 使用NMF对进行分解,即
总体思路感觉与RolX差不多(个人感觉哈)
不同的地方在于使用NMF分解时,损失函数为
通过网络训练,得到一个最优值
通过损失函数的设计,可以使得训练后的矩阵更加符合我们的要求 比如也就是尽可能是的嵌入保持邻接性质(与A接近)....
损失函数设计也很重要!
文章细节并未仔细研读,只是读了一个大概
结语
文章仅作为个人学习笔记记录,记录从0到1的一个过程
希望对您有一点点帮助,如有错误欢迎小伙伴指正