【论文阅读】DINE: A Framework for Deep Incomplete Network Embedding

228 阅读13分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第11天,点击查看活动详情

前言

Hello! 非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~   自我介绍 ଘ(੭ˊᵕˋ)੭ 昵称:海轰 标签:程序猿|C++选手|学生 简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖...已保研。 学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!   唯有努力💪  

知其然 知其所以然!

  本文仅记录自己感兴趣的内容

简介

年度:2020

Abstract

网络表示学习(NRL)在节点分类和链路预测等各种任务中发挥着重要作用

它的目标是基于网络结构或节点属性学习节点的低维向量表示

虽然完整网络上的嵌入技术已经被深入研究,但在实际应用中,收集完整网络仍然是一项具有挑战性的任务

为了弥补这一差距,本文提出了一种深度不完全网络嵌入方法,即DINE

  • 具体来说,我们首先使用期望最大化框架来完成部分可观测网络中包含节点和边的缺失部分
  • 为了提高嵌入性能,我们同时考虑网络结构和节点属性来学习节点表示

在经验上,我们评估了三个网络上的多标签分类和链路预测任务的DINE

结果表明,与最新的基线相比,我们提出的方法具有优越性

1 Introduction

信息网络(如引文网络、社会网络、生物网络)包含不同类型的实体和复杂的关系

分析这些网络在许多学科中起着重要的作用

例如

  • 在引文网络中,我们可以通过计算顶点的重要性来找到有影响力的实体(如学者、论文)[2,5]
  • 在社交网络中,将用户聚类为社区有利于推荐[25,26]
  • 在生物网络中,测量蛋白质之间的相似性有助于我们更好地理解蛋白质相互作用[27]

然而,随着实体和关系在现实网络中的增加,探索底层网络结构是具有挑战性的


为了寻找一种有效的网络建模方法,网络表征学习(network representation learning, NRL)成为研究热点

NRL旨在学习潜在的、低维的节点表示,不仅保留网络拓扑,还保留节点内容

  • Perozzi等[19]首先将NRL和skip-gram结合起来,提出了Deepwalk,为该领域未来的发展奠定了坚实的基础

近年来,NRL的发展见证了强大的表示能力,如DeepGL [20], DANE[7]

NRL利用其强大的表示能力对复杂结构进行建模,在节点分类[3,30]、链路预测[8,16]、网络可视化[21]等下游任务中取得了显著的性能


在实践中,许多真实世界的网络是不完整的[14],这进一步复杂化了嵌入过程

例如

  • 引文网络通常是不完整的,因为学术搜索引擎不可能收集到每一篇论文
  • 在生物网络中,由于基因表达的复杂性,存在着大量未被发现的联系

分析不完全网络会产生偏差,因为只观察到一部分链路,这改变了我们对网络级统计量的估计

为了填补这一空白,研究者们关注网络完成问题,利用观察到的连接模式来推断缺失的部分

然而,现有的研究只关注缺失链接推断[6,11],很少有研究同时存在节点和边缺失的不完全网络[13]


为了解决这一问题,我们提出了一种新的深度不完全网络嵌入框架DINE

DINE智能地将网络完成和NRL结合成一个统一的框架

如图1所示,DINE包含两个关键步骤,包括网络恢复和网络嵌入

  • 特别的是,我们首先从部分可观测网络中获取连接模式,并拟合生成图模型来估计缺失组件
  • 为了更准确地建模网络,我们同时考虑网络结构和节点属性,通过使用深度自编码器来学习恢复网络的表示

最后,我们在三个真实网络上验证了所提出的框架的性能

实验结果表明,该算法在部分可观测网络中具有良好的表示能力


我们的主要贡献如下:

  • 提出了一种新的深度不完全网络嵌入框架DINE。DINE将网络补全和NRL智能地结合成一个统一的框架,为数据缺失提供了有效的解决方案。
  • DINE不仅考虑拓扑结构,还考虑节点属性。该方法能够准确有效地模拟关节空间中的节点邻近性和底层结构。
  • 我们通过多标签分类和链路预测任务,在三个真实网络上广泛地验证了该框架。结果表明,与最新的基线相比,我们提出的方法的优越性

2 Related Work

我们在本文中提出的框架涉及两个研究领域,包括网络完成和NRL技术

  • network completion
  • NRL techniques

2.1 Network Completion

Network completion处理网络中缺失节点和边的推断问题

网络补全类似于矩阵补全[12],它的目的是补全缺少元素的矩阵

然而,由于网络的多样性,网络的完成更为艰巨

对于缺失边,通过计算节点相似度来恢复原始网络是一种很有吸引力的方法

另一种补全缺失边的方法是考虑共享节点邻居[4]

在节点和边都缺失的情况下,我们可以使用名为KronFit[15]的生成图模型来生成结构类似于真实网络的完整网络

Kim等[13]将期望最大化与KronFit相结合,提出了一种强大的算法KronEM,该算法对恢复网络更加有效

2.2 Network Representation Learning

NRL的目标是将网络中的每个节点嵌入到一个低维表示中

现有的NRL算法可以分为四类

  • 第一类是基于矩阵分解的方法。它们首先表示网络顶点之间的连接,并使用矩阵分解得到表示
    • IsoMAP[23]通过特征向量构建亲和力网络。它用解出的主特征向量表示节点
  • 第二类是基于随机游走的方法
    • DeepWalk[19]利用random walk学习结构信息,并使用skip-gram获取表示
    • Node2vec[10]改变了随机游走的策略,以捕获更全局的结构
  • 第三类是基于边缘建模的方法。它们利用节点-节点连接直接学习节点表示
    • LINE[22]利用一阶接近和二阶接近来获取局部和全局结构信息
  • 第四类是基于深度学习的方法。利用深度学习技术可以自动提取出高度非线性的结构
    • SDNE[24]通过深度自编码器为高度非线性结构保留一阶和二阶近似

3 Preliminary

在本节中,我们首先描述本文中使用的符号

然后我们将网络嵌入问题形式化到一个不完全网络中

3.1 Notations

我们表示完整网络为G=(V,A,P)G = (V, A, P),其中

  • V={v1,v2vv}V = \{v_1, v_2,…, v_{|v|}\}表示网络中的节点
  • ARV×VA∈R^{|V|×|V|}表示邻接矩阵
  • PRV×PP∈R^{|V |×|P|}表示节点属性矩阵
  • V|V|P|P|分别表示邻接矩阵和节点属性的维数

同样,我们将不完整网络、缺失网络和恢复网络分别定义为

  • G=(VAP)G ' = (V ', A ', P '):不完整网络
  • GM=(VM,AM,PM)G_M = (V_M, A_M, P_M):缺失网络
  • GR=(VR,AR,PR)G_R = (V_R, A_R, P_R):恢复网络

表1列出了本文主要使用的符号的含义

在这里插入图片描述

3.2 Problem Formulation

网络完备性的目的是推断不完备网络中缺失的部分,如何从可观察网络GG’中推断出缺失的网络GMG_M是该问题的关键

如果我们用邻接矩阵来表示网络,那么网络补全问题就可以转化为矩阵补全问题

一般来说,经典的矩阵补全问题是确定二进位矩阵中缺失部分元素的值(0或1)

在本文中,我们假设缺失节点的数量是已知的

如果不是,估计隐藏(缺失)种群大小的标准方法可以解决这个问题[17]

虽然网络恢复有助于表示不完整网络,但在表示学习过程中存在一些问题

  • 一方面,许多网络表示方法都是浅模型。网络完整性对于提取局部或全局拓扑信息至关重要
  • 另一方面,大多数方法不能捕获节点[24]之间的非线性关系,非线性关系不仅需要考虑拓扑信息,还需要考虑节点属性等节点内容

此外,AA 'PP '保留了网络的信息,用于表示关节空间中的网络

因此,具有相似拓扑结构或属性的节点在表示维度上将更加接近

4 Design of DINE

在本节中,我们提出了一个新的框架,即DINE,来解决不完全网络中的网络嵌入问题

我们的框架包含两个关键组件,网络恢复和网络嵌入

  • 首先,我们讨论了如何恢复不完整的网络
  • 然后,我们引入了同时考虑拓扑信息和节点属性的网络表示学习过程

4.1 Recovery of Incomplete Network

为了恢复节点和边缺失的网络

  • 我们使用 Kronecker图模型[15] 对不完整网络进行建模
  • 利用不完全网络在网络结构上拟合 Kronecker图模型,估计缺失部分,然后重新估计模型参数
  • 对这两个步骤进行迭代,直到模型参数收敛
  • 最后,得到网络中缺失的部分

网络补全的目的是找到缺失部分GMG_M最可能的结构

我们通过网络生成参数ΘΘ连接不完整的网络和缺失的网络


σσ表示恢复网络、不完整网络和缺失网络中节点之间的映射关系

映射σσ表示集合{1,NG}\{1,…, N_G\}

  • σσ的前NN'个元素映射GRG_R的节点到不完整网络GG'
  • σσ的剩余NMN_M个元素映射GRG_RGMG_M的节点

大概意思就是,GRG_R利用σ\sigma的前NN'个元素映射到GG'中的节点,σ\sigma剩余的NMN_M个元素将GRG_R中的节点映射到GNG_N 可以理解为GR=G+GMG_R = G' + G_M,利用σ\sigma分别对于其映射关系

似然P(G’,GMσΘ)P (G’,G_M, σ|Θ)可以表示为:

在这里插入图片描述 其中

  • ΘkΘ^k为模型参数ΘΘ生成的邻接矩阵
  • [Θk]σ(u)σ(v)[Θ^k]_{σ(u)σ(v)}表示矩阵ΘkΘ^k的第(σ(u),σ(v)(σ(u),σ(v)元素
  • auva_{uv}ARA_R的第(u,v)(u, v)个元素,为恢复后的网络的邻接矩阵

然后,我们考虑缺失部分的边和σσ作为潜在变量

EstepE-step是对缺失部分进行采样并排列

MstepM-step采用随机梯度下降法对参数Θ进行优化

然后迭代E-step和M-step,直到参数Θ收敛

这些步骤可以描述为:

在这里插入图片描述 详细地

  • 我们首先初始化模型参数ΘΘ并生成一个随机网络
  • 然后对缺失部分GMG_M和节点映射σσ进行Gibbs采样,可以认为是对网络缺失部分的恢复
  • 此外,我们对模型参数ΘΘ进行优化,并迭代上述步骤,直到参数收敛
  • 最后,我们获得丢失部分和节点映射的最有可能的实例

4.2 Recovered Network Embedding MVC-DNER

在网络表示方面,我们不仅考虑了网络拓扑结构,还考虑了节点属性

此外,受MVC-DNE28的启发,我们提出MVC-DNER来捕获恢复网络中的非线性结构和节点属性

如图2所示,嵌入部分有网络结构视图TT和节点属性视图PP,使用深度自编码器学习每个视图中的潜在信息 在这里插入图片描述

我们以恢复后的网络的邻接矩阵xtxt和属性矩阵xpxp作为输入

在编码过程中,一个视图的输入特征可以编码一些反映另一个视图输入的共享潜在信息

在解码过程中,一个视图中的潜在表示可以重建另一个视图的输入

损失函数定义为:

在这里插入图片描述

式中

  • xt^itx\hat t^t_ixt^ipx\hat t^p_ixtixt_i的重构输出
  • xp^itx\hat p^t_ixp^ipx\hat p^p_ixpixp_i的重构向量
  • α和β分别是调整自视图和交叉视图重构误差、恢复节点和观察节点重构误差比例的参数
  • θ={W(l)b(l)W^(l)b^(l)}l=1Kθ = \{W^{(l)},b^{(l)},\hat W^{(l)},\hat b^{(l)}\}^K_{l=1}表示参数包括深度自编码器中的权重WW和偏置bb

采用随机梯度下降法使损失函数最小

这样,学习表示法既保留了网络结构信息,又保留了节点属性信息

5 Experiments

在本节中,我们通过多标签分类和链接预测任务在三个数据集上评估我们的框架

我们首先介绍了三种数据集和基线方法。然后描述了方法的评价指标和参数设置

最后,我们将介绍DINE的性能,并将其与最先进的基线进行比较

5.1 Datasets

...

5.2 Baseline Methods

...

5.3 Parameter Settings

...

5.4 Experimental Results

Multi-label classification

在这里插入图片描述 Link prediction

在这里插入图片描述

6 Conclusion

在本文中,我们提出了一个名为DINE的框架,旨在学习不完整网络中的节点表示。该框架分为两部分:网络完成和恢复网络表示学习。具体来说,我们基于EM方法和Kronecker图模型的结合来恢复不完整网络中缺失的部分。在恢复不完整网络后,我们提出了一种名为MVC-DNER的算法来学习恢复网络的节点表示。MVC-DNER使用深度自编码器学习表示,既保留了网络结构又保留了节点属性。在三个真实网络数据集上的实验结果表明,我们提出的方法具有显著的性能。未来的工作主要是将DINE扩展到包含不同类型节点和边的异构网络。

读后总结

2022/07/21 第一次阅读

文章的重点是在得到恢复网络GMG_M

细节没有看懂 有个疑问:对于小图来说 ,是否有用呢?

然后在同时利用结构信息 + 属性信息,使用AE得到损失

最小化损失,从而训练参数

得到最终的嵌入

结语

文章仅作为个人学习笔记记录,记录从0到1的一个过程

希望对您有一点点帮助,如有错误欢迎小伙伴指正

在这里插入图片描述