携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第25天,点击查看活动详情
前言
Hello! 非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ 自我介绍 ଘ(੭ˊᵕˋ)੭ 昵称:海轰 标签:程序猿|C++选手|学生 简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖...已保研。 学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语! 唯有努力💪
知其然 知其所以然!
本文仅记录自己感兴趣的内容
简介
会议:WSDM '22, Feb. 21–25, 2022, Virtual Event, Tempe, AZ, USA (CCF-B)
年度:2022/02/21
ABSTRACT
链接预测已成为深度学习中的一个重要研究问题,而基于图的自编码器模型是解决该问题的重要方法之一
- 现有的基于图的自编码器模型只学习单一的分布集合,不能准确地表示真实图数据中的混合分布
- 同时,当图数据属性信息不足、拓扑信息不准确时,现有的学习模型受到很大的限制
本文提出了一种新的图嵌入框架——多尺度变分图自编码器(multi-scale variational graph autoencoder, MSVGAE)
- 该框架通过图编码器学习多个不同维的低维向量集来表示原始图数据的混合概率分布,并对每个维进行多次采样
- 在此基础上,引入一种自监督学习策略(即图特征重建辅助学习),充分利用图属性信息来帮助图结构学习
实验研究表明
- 与其他基线方法相比,该模型在链路预测任务中具有最先进的性能
- 鲁棒性分析表明,所提出的MSVGAE方法在处理属性信息不足、拓扑信息不准确的图数据时具有明显的优势
1 INTRODUCTION
现实世界中的许多领域都可以用图结构数据表示,如社区检测[7]、生物和交通
将真实的个体抽象为图网络中的节点,将个体之间的相互作用抽象为图网络的边
如今,图数据的分析越来越受到人们的关注,尤其是对链路预测[27]的研究迅速成为图数据分析中一个非常重要的课题。由于图数据具有高度的不规则性和复杂的结构,传统的机器学习方法不能直接应用于图数据处理任务
近年来,图表示学习[8,13,26]由于在许多图数据建模任务中表现良好,其优势是通过图属性信息和图拓扑信息的联合学习,将高维空间中的图数据节点特征映射到低维空间中,受到了人们的关注
事实上,图嵌入学习已经广泛应用于链接预测任务的研究中
目前,图表示学习方法主要分为三个研究方向:概率模型、基于矩阵分解的方法和基于深度学习[6]的模型
- 概率模型的主要学习目标是在低维空间的向量中保留原有的拓扑信息。DeepWalk[17]、LINE[18]、node2vec[5]等模型使用随机游动构造局部邻域连通性,最终学习网络节点表示
- 基于矩阵分解的方法主要是通过分解表示图数据的邻接矩阵来学习图上节点的表示,如GraRep [1], HOPE [14],M-NMF[25]
- 目前最受关注的是一些基于深度学习的模型,将自动编码器的思想与图神经网络相结合,构建图数据[24]的潜在表示
- GAE[10]使用自编码器的框架,将图卷积网络(GCN)[11]应用到编码器中,以达到学习潜在节点特征的目的,并通过解码器重建邻接矩阵,以达到链路预测的目的
- VGAE[10]将GCN应用到变分自编码器(Variational Autoencoder, VAE)[9]的编码器中,学习节点特征的低维分布,然后重建图数据的邻接矩阵
- 此外,MGAE[22]和GALA[16]等模型也在GAE的基础上学习节点特性的表示
值得注意的是,上述方法在学习表示图数据的低维向量时,只学习了一组表示节点特征的低维向量
在实践中,当图数据中的属性信息和结构信息不足时,我们发现仅仅学习一组低维向量并不能很好地表示原始的杂图数据
同时,现有所有的图自编码器模型[10]都使用GCN[11]作为编码器,其中编码器的邻接矩阵在模型训练时是固定的
- 因此,在模型学习低维向量表示时,在聚合其他邻居节点特征时,每个节点不能根据每个邻居节点特征的相似性给不同的邻居节点分配相应的权值
- 另外,在模型训练过程中,当图数据中有效的节点链接或节点特征信息很少时,模型对原始图数据的表示能力较差,极大地影响了学习效果,使得最终重构后的链接信息仍然不完整
在本文中,我们提出了一种新的具有自监督学习的图表示框架,称为多尺度变分图自编码器(MSVGAE)
- 首先,我们的模型通过编码器学习不同低维向量表示的多组分布,对每个低维向量表示的分布进行采样,以表示原始的复杂图数据
- 其次,选择GAT (graph attention network)[20]作为编码器;这样,当模型学习到低维向量表示的分布时,每个节点可以自适应地聚合所有邻居节点,即根据节点特征的相似性为不同的邻居节点分配相应的权系数
- 最后,该模型对邻接矩阵进行重构,生成一个比之前残缺的邻接矩阵更完整的邻接矩阵
- 同时,为了构造新的邻接矩阵,在模型中引入了自监督学习的思想,即利用图自编码器模型结合新的邻接矩阵对节点的特征矩阵进行重新表示,并将重新表示的节点特征矩阵与原始特征矩阵的差异加入到最终的损失函数中
总之,通过综合考虑图属性信息,基于图特征重构的自监督学习可以得到更好的图结构
自监督学习任务的优点是可以将所有预测的拓扑信息都包含在优化目标函数的计算中,增加的自监督损失可以帮助模型重建更精确的拓扑结构矩阵
- 提出了一种用于链路预测的多尺度变异图自编码器(MSVGAE),该编码器可以学习更准确的混合概率分布来表示原始图数据
- 设计了一种多尺度图嵌入学习方法,以提高图自编码器模型的鲁棒性,该方法在处理多个图建模任务中的不确定性问题方面显示出良好的潜力。
- 提出了一种基于图特征重构的自监督学习方法来辅助图结构学习
2 RELATED WORK
在链路预测的初始阶段,主要计算的是节点之间的相似性:相似度越大,产生链接的可能性越大
在社交网络中首次提出了基于图的链接预测问题
- 文献[12]总结了图拓扑相似度的评价指标,指出了最准确的(adam - adar index, AA)指标
- 后来又提出了一些更好的指标,如资源分配指标、部分路径指标[30]
- 考虑到节点之间的连通性取决于节点之间的相似程度,提出了一种基于网络层次结构的链路预测模型[3]。该模型在具有明显层次结构的图网络中表现良好
- DeepWalk[17]模型在自然语言处理中结合了随机游走和词嵌入模型,将非欧氏空间数据的图网络映射到欧氏空间,利用节点的嵌入向量来解决链接预测问题
- 在此基础上,提出了许多图网络嵌入学习模型,如Node2vec[5]和LINE[18]
近年来,随着图神经网络的快速发展,链接预测问题也得到了进一步的发展
- kipf等人结合图卷积神经网络和变分自编码器的思想,提出了一种变分图自编码器(VGAE)[10],并在链路预测问题上取得了较好的结果
- 随后,首次提出了一种结合生成对抗网络(GAN)[4]和图卷积神经网络的模型[23]。在此基础上,导出了对抗正则化变分图自编码(ARVGA)和分布诱导双向生成对抗网络(DBGCN),并用于图表示学习来解决链路预测问题
另一方面,自监督学习(self-supervised learning, SSL)[28]也被许多研究者深入研究
- 由于SSL的优点是不需要任何标记数据,而在现实生活中,它往往需要大量昂贵的标记数据,因此SSL被广泛应用于图嵌入式学习
- 与快速发展的图神经网络相比,SSL在图数据中的应用是一个新的领域。受图像领域的启发,一些基于图神经网络的自监督学习方法开始兴起,如DGI[21]
- Chen等人[2]提出了一种名为上下文恢复的自监督学习策略,可以更好地使用未标记数据
在我们的模型MSVGAE中,我们学习了多组不同尺度的节点嵌入表示,使得模型具有更强的表示能力,在图数据信息不足的情况下也能具有良好的鲁棒性
同时,在模型中引入了自监督学习,提高了学习能力
3 PROBLEM DEFINITION
Notion
- 𝐺 = (𝑉 , E) 是一个无向图
- 是图中的节点集
- 𝑁 是节点数
- E 是图中的边集
- 是图中所有节点的特征矩阵,𝐹是每个节点的特征维数。
- 邻接矩阵 表示图的拓扑结构
用于链路预测的图自动编码器的主要目的是利用图的属性信息和较少的拓扑信息生成更完整的图拓扑
具体来说
- 根据给定的图特征矩阵和不完全边集,模型通过编码器(大多数模型中的GCN)学习节点向量的低维分布
- 然后得到新的图嵌入 ,通过图数据的潜在分布对其进行采样
- 最后,由解码器重构图的拓扑结构(链接预测:预测节点和节点之间存在连接的可能性),得到一个新的邻接矩阵
4 MODEL ARCHITECTURE
4.1 Overall Structure
图 1 显示了我们的多尺度变分图自编码器(MSVGAE)的整体结构,它由三部分组成:
- 图编码器
- 解码器
- 自监督学习模块
图编码器利用图注意力机制实现变分推理模型,学习多组不同维度的低维向量表示的概率分布,估计图数据的真实后验概率分布
从技术上讲,它学习了多组潜在表示
编码结果就是嵌入
解码器实现了一个生成模型来重建一个新的邻接矩阵(从学习得到)
最后,引入自监督学习任务,通过编码器学习的潜在表示𝑍和解码器学习的重构相邻矩阵来重构图属性信息
这种基于图特征重构的辅助学习可以充分利用图的属性信息来帮助生成完整的图结构
4.2 Multi-Scale Variational Graph Autoencoder
4.2.1 Inference Model
在图编码器的变分模型中,图数据的节点特征矩阵和给定的链接集作为输入
变分部分负责整个模型的图嵌入学习和复杂高维图的降维表示
与大多数使用 vanilla GCN [11] 作为编码器的模型不同,我们使用图注意力网络 (GAT) [20] 来实现图编码器,即使用多头注意力网络来聚合所有邻居的特征 每个节点的距离为 1 的节点
变分概率分布的参数推理模型可以表示为:
- 其中和分别表示与节点对应的均值向量和方差向量,它们由编码器学习
下面介绍一下我们的图注意力机制,我们对 GAT 做了一点改动
- 是一个共享权重参数化矩阵,用于每个节点的线性变换学习
当节点及其邻居的特征被聚合时,向量的对应位置相乘,可以更好地计算节点之间的相似度。
注意力机制 通过由权重向量参数化的单层前馈神经网络应用于 LeakyRelu。
输入节点的特征向量可以表示为一组,
邻域特征由注意力层聚合后由集合 作为输出
其中
- ,是节点相对于节点的权重
- 是𝑠𝑖𝑔𝑚𝑜𝑖𝑑激活函数
为了使学习过程更加稳定,使用了多头注意力,每个节点学习𝐾组权重
最终的节点向量 可以表示为:
4.2.2 Multi-Scale Learning
目前,大多数基于变分图自编码器的链路预测模型仅在编码器部分学习一组隐藏变量表示来近似原始数据的复杂分布
当图数据的特征信息或结构信息不足时,只有一组分布不能很好地代表原始数据的复杂分布
因此,我们的模型通过编码器学习不同维度(16、32、64、128)的隐藏向量矩阵𝑍,在每个维度上采样两组概率分布,并学习几组不同维度的分布来逼近真实分布( 隐变量矩阵𝑍 )
这里的多个维度就是嵌入向量的维度:d=16、32....
𝑍采样的表达式为:
4.2.3 Generative Model
在解码器部分,我们将编码器采样的所有低维隐变量矩阵𝑍与其转置矩阵相乘以生成拓扑结构
- 其中是重构邻接矩阵的一个元素
将所有维度的嵌入向量进行了运算
4.3 Self-Supervised Learning Task
在现实生活中,往往大量的数据中只有非常少量的标注信息
因此,当已知节点链路信息过少时,模型不能准确地表示原始数据分布,严重影响模型的学习效果
为了解决这个问题,我们在模型中引入了一个自监督学习任务,它旨在增加辅助任务来提高主学习任务的准确性,提高模型的性能
在我们的模型中,通过编码器学习原始数据的低维表示后,加入了重新学习节点特征表示的辅助任务和重建邻接矩阵的主要学习任务(如图2所示),当数据的特征和拓扑信息不足时,模型也能够很好地学习
学习问题可以表示为:
其中
- Q表示模型作为主要学习任务的链路预测
- 𝑃表示原始图数据的特征分布
- 模型的自编码器表示为𝑓
- 预测头表示为ℎ
- 公式中,𝑓在自我监督下训练,ℎ在Q监督下训练
- 𝜆是一个正标量权重,平衡了损失中的两项
自监督学习任务使用GCN (graph convolution network)[11]传播,其过程可以表示为:
其中
- 是解码器生成的新邻接矩阵并添加了自连接
- 𝐼是单位矩阵
- 𝐷是度数矩阵,用于对𝐴′进行归一化。
- 代表𝑙层的特征
- 代表𝑙层的权重
4.4 Learning
模型训练的优化函数为
其中
-
表示生成的拓扑图与原始拓扑图之间的距离度量 -表示两个概率分布 𝑝 和 𝑞 之间差异的度量
-
我们使用高斯先验
-
𝑀 表示嵌入的总维数 𝑍
在公式(12)中,自监督学习任务最后一部分的损失函数表示均方误差(MSE),它表示(原始特征矩阵)和(重构的特征矩阵)之差的平方和
值得一提的是,在重构 的任务中, 使用 GCN 图卷积神经网络结合重构的邻接矩阵 重新表示
一个优点是,与无监督任务相比,SSL 任务的辅助训练导致重建的邻接矩阵 生成更准确的链接信息
4.5 Algorithm Explanation
我们提出的 MSVGAE 方法的具体操作如算法 1 所示
输入部分是图 𝐺
- 步骤 2 从编码器 (GAT) 学习由多组潜在变量矩阵 𝑍 表示的分布
- Step 3 为 Step 2 中的每个 𝑍 重构对应的拓扑矩阵
- Step 4 计算所有拓扑结构的平均值
- Step 5 使用自监督学习任务辅助模型进行训练。
- 步骤6,公式8用于使用梯度下降更新模型(MSVGAE)的所有参数
- 最后,在步骤 8 中,返回最终训练得到的拓扑结构
5 EXPERIMENTS
为了验证该方法的有效性,本文在五个真实的图数据集上进行了实验
5.1 Evaluation Setup and Metrics
5.1.1 Datasets
5.1.2 Baselines
5.1.3 Metrics
5.1.4 Parameter Settings
5.2 The Results of Link Prediction
5.3 Ablation Study
5.4 Robustness Analysis
5.5 Evaluation on Node Clustering
5.6 Graph Visualization
6 CONCLUSION
在本文中,我们提出了一种新的多尺度图表示学习框架,它带有一个基于GAT的自编码器,称为MSVGAE,用于链路预测
由于在许多实际应用中,图数据的分布是一个复杂的混合概率分布,我们学习了多尺度的低维表示来表示复杂的图数据
在此基础上,提出了一种基于图特征重构的自监督学习方法,有效地提高了图结构学习的性能
为了验证模型的有效性,实验中使用了五个真实的图形数据集
实验结果进一步验证了该模型对于节点属性信息和拓扑信息不足的链路预测任务的可行性和有效性
读后总结
2022/08/08 第一次阅读
emm,看完之后,感受:这两天好不容易有个新的思路,结果这篇文章就发出来了
呜呜呜 好惨
不过还是有一些借鉴价值的! 毕竟自己只是一个粗略的想法,作者都是实现了
文章的思路:
- 利用特征矩阵和邻接矩阵作为编码器的输入
- 使用GAT进行编码,输出多个维度的嵌入向量,
- 然后对所有的嵌入进行解码(融合),得到
- 依据与重构损失进行函数的目标优化
- 针对数据、特征不足的情况下,加入另一个目标优化
- 利用重构得到的作为输入,使用GCN,得到新的特征矩阵
- 利用与得到新的损失函数
- 与原来目标优化函数结合,进行联合优化
文章还是有一定的学习价值,之后再仔细研读!
结语
文章仅作为个人学习笔记记录,记录从0到1的一个过程
希望对您有一点点帮助,如有错误欢迎小伙伴指正