[论文链接]([2105.00696] Graph Learning: A Survey (arxiv.org))
Graph Learning: A Survey
图被广泛用作连接数据的网络结构的流行表示。图学习即图上的机器学习。通常,图学习方法利用机器学习算法来提取图的相关特征。
与文本、音频和图像不同,图形数据嵌入在不规则的域中,使得现有机器学习算法的一些基本操作不适用。这篇综述对图形学习的最新技术进行了全面的概述。 特别关注四类现有的图学习方法:包括图信号处理、矩阵分解、随机游走和深度学习。研究了图学习在文本、图像、科学、知识图和组合优化等领域的应用。此外还讨论了该领域中几个有前景的研究方向。
01.介绍
图,也称为网络,可以从丰富实体之间的各种现实世界关系中提取。图通常由两个集合定义,即顶点集和边集。顶点表示图形中的实体,而边表示这些实体之间的关系。图学习方法在捕捉复杂关系方面越来越受欢迎,因为图利用了顶点之间的基本和相关关系。
什么是图学习?
图学习是指在图上的机器学习,图学习方法将图的特征映射到嵌入空间中具有相同维度的特征向量。图学习模型或算法直接将图数据转化为图学习架构的输出,而无需将图映射到低维空间。由于深度学习技术可以将图数据编码并表示成向量,大多数图学习方法都是基于深度学习技术或从深度学习技术中概括出来的。图学习的输出向量是在连续空间中,其目标是提取图的理想特征。因此,图的表示可以很容易地被下游任务使用,如节点分类和链接预测,而无需明确的嵌入过程。因此,图学习是一种更强大和有意义的图分析技术。
如图所示,论文将现有的图学习方法分为四类:基于图信号处理(GSP)的方法,基于矩阵分解的方法,基于随机游走的方法,以及基于深度学习的方法。
简单地说,GSP 处理的是图的采样和恢复,以及从数据中学习拓扑结构。
矩阵分解可分为图拉普拉斯矩阵分解和顶点临近矩阵分解。
基于随机游走的方法包括基于结构的随机中游走、基于结构和节点信息的随机游走、异质网络中的随机游走和时变网络中的随机游走。
基于深度学习的方法包括图卷积网络、图注意网络、图自动编码器、图生成网络和图空间-时间网络。
这些方法/技术的模型架构各不不同,本文对最先进的图学习技术进行了广泛的回顾。
图学习方法能解决什么问题?
图网络表示揭示了社会生活的各个方面,如交流模式、社区结构和信息扩散。根据顶点、边和子图的属性,图学习任务可以分为三类,分别是基于顶点、基于边和基于子图。图中顶点之间的关系可以被用于分类、风险识别、聚类和社区发现。通过判断图中两个顶点之间是否存在边,我们可以进行推荐和知识推理。基于子图的分类,可以用于解决聚合物分类、三维视觉分类等问题。对于GSP来说,设计合适的图采样方法以保留原始图的特征是很有意义的,其目的是有效地恢复原始图。图恢复方法可用于在不完整数据的情况下构建原始图,随后利用图学习来从图数据中学习拓扑结构。
图学习可以用来解决以下挑战,这些挑战是用传统的图分析方法难以解决的:
- 不规则域
传统张量数据有明确的网格结构,而图位于一个不规则域中(即非欧几里得空间),与规则域相比,非欧几里得空间的数据不是有规律地排列的,很难定义距离。因此,基于传统机器学习和信号处理的方法不能直接推广到图上。
- 网络的异质性
在现实世界中,顶点之间的边和顶点的类型通常是多样的,如图所示的学术网络。因此,要从具有丰富顶点和边的异质信息网络中发现潜在价值并不容易。
- 分布式算法
在大的社交网络中,往往有数百万个顶点和边。集中式算法无法处理这种情况,因为这些算法的计算复杂度会随着顶点数量的增长而显著增加。设计处理大网络的分布式算法是一个尚未解决的关键问题。分布式算法的一个主要好处是,这些算法可以同时在多个CPU或GPU上执行,运行时间可以大大减少。
本文的贡献
- 对最先进的图学习方法的全面概述:对图学习方法进行了完整的介绍,包括技术简述、应用场景和潜在研究方向等。
- 对图学习技术的分类: 从理论模型的角度对主流图学习方法进行了技术分类。
- 对图学习的未来方向提供见解: 除了对现有方法的定性分析,还通过总结几个开放性问题和相关的挑战,阐明了图学习领域的潜在研究方向。
02. 图学习模型和算法
01.图信号处理
信号处理是一门传统的学科,它处理定义在规则数据领域的信号。近年来,研究人员将传统信号处理的概念扩展到图中。经典的信号处理技术和工具,如傅里叶变换和滤波,也可以用来分析图。图是一种不规则数据,很难直接处理。作为对基于结构和模型的学习方法的补充,GSP 为图的频谱分析提供了一个新的视角。从信号处理中衍生出来的 GSP 可以对图的属性(如连接性、相似性)做出解释。
1) 图上的表示
GSP有两个主要模型,即基于邻接矩阵的GSP和基于拉普拉斯的GSP。
-
基于邻接矩阵的GSP来自代数信号处理(ASP) 。从代数理论上解释了线性信号处理,它可以应用于连续和离散的时间域。在ASP中,线性代数的基本假设被扩展到代数空间。通过适当地选择信号模型,ASP可以得到线性信号处理的不同实例。在基于邻接矩阵的GSP中,信号模型是由shifts产生的。与传统的信号处理类似,GSP 中的shifts是图域中的一个滤波器。GSP 通常使用邻接矩阵作为 shifts 来定义图信号模型。图的信号通常是在顶点定义的。
-
基于拉普拉斯的 GSP 起源于谱图理论。 高维数据被转移到由拉普拉斯基的一部分产生的低维空间。一些研究人员利用传感器网络来实现图信号的分布式处理。还有一些研究者假设图是平滑的情况下解决了这个问题。与基于邻接矩阵的GSP不同,拉普拉斯矩阵是对称的,具有实数和非负的边权重,用于索引无向图。
2) 采样和恢复
采样并不是GSP中定义的一个新概念。在传统的信号处理中,通常需要用最少的样本重建原始信号,并保留原始信号的所有信息,这是一个采样问题。少量的样本会导致信息的缺乏,而更多的样本需要更多的空间来存储。著名的Nyquist-Shannon采样定理给出了在时域中完美恢复信号的充分条件。
图上的采样
研究者将采样理论迁移到GSP中,研究图上的采样问题。 由于在一些现实世界的应用中,如传感器网络和社交网络,数据量很大,因此减少采样和更好地恢复对GSP至关重要。事实上,大多数解决采样问题的算法和框架都要求图对其上观察到的信号中的相关关系进行建模。采样问题可以定义为从顶点子集上的样本中重建信号,其中的信号通常是带限的。Nyquist-Shannon 采样定理在中被扩展到图信号。基于归一化拉普拉斯矩阵,为GSP定义了采样定理和截止频率。此外,作者还提供了一种从给定的采样集计算截止频率的方法和一种为给定带宽选择采样集的方法。其中提出的采样定理仅仅适用于无向图。由于Laplacian矩阵只代表无向图,有向图的采样理论采用邻接矩阵。 中提出了一个保证完美恢复的最优算子,它对一般图的噪声具有鲁棒性。
经典信号处理和图信号处理的区别
前者的信号属于规则域,而后者属于不规则域。对于采样和恢复问题,经典信号处理对连续的信号进行采样,并能从采样中恢复连续的信号。GSP对离散序列进行采样,并从采样中恢复原始序列。按照这个顺序,解决方案一般分为两部分,即寻找采样顶点集和基于各种模型重建原始信号。
图信号的重构
与经典的信号处理类似,图上的重构任务也可以被解释为数据插值问题。通过将样本投射到适当的信号空间上,研究人员获得插值信号。最小二乘法重构是实践中的一种可用方法。
另一种恢复原始信号的常用技术是平滑。 平滑性用于推断低频的图形信号的缺失值。
此外,还有一些关于不同种类信号的采样研究,如平滑图信号、片状常数信号和片状平滑信号。
3)从数据中学习拓扑结构
在大多数应用场景中,图是根据实体相关性的连接来构建的。例如,在传感器网络中,传感器之间的相关性往往与地理距离一致。社交网络中的边被定义为朋友或同事等关系。在生化网络中,边是由相互作用产生的。虽然GSP是解决图上问题的有效框架,如采样、重建和检测,但缺乏从数据集中提取关系的步骤。连接存在于许多数据集中,没有明确的记录。幸运的是,它们可以通过很多方式被推断出来。
因此,研究者希望从数据集中学习完整的图。从数据集学习图的问题被表述为估计图的拉普拉斯,或图的拓扑结构。 一般来说,他们要求图满足一些属性,如稀疏性和平滑性。平滑性是由数据集生成的网络中的一个普遍假设。因此,它通常被用来约束观察到的信号,并为图信号提供一个合理的保证。基于平滑度的算法背后的直觉是,图上的大多数信号是稳定的,而通过shifts过滤的结果往往是最低频率的。
高斯马尔科夫随机场(GMRF)也是GSP中广泛使用的图拓扑学习理论 。基于GRMF的图拓扑学习的模型选择更有可能产生与GMRF产生的信号相似的图。
扩散也以用来解决拓扑推断问题 。扩散指的是,节点不断影响其邻域。在图中,数值大的节点对其邻域节点的影响会更大。用一些成分来表示信号将有助于找到信号形成的主要因素。扩散的模型通常是在独立同分布的信号的假设下。
对于数据中记录的时间序列,一些文献试图构建时间序列网络。
对于 recovery 方法,一个著名的部分推理问题是推荐。推荐中使用的典型算法是协同过滤(CF)。鉴于矩阵中观察到的评分,CF 的目标是估计完整的评分矩阵。
4)讨论
GSP 算法对实验数据有严格的限制,因此在现实世界的应用较少。GSP算法要求输入的数据必须是整个图,这意味着部分图的数据不能作为输入。这类方法的计算复杂度可能会很高,与其他类型的图学习方法相比,GSP算法的可扩展性比较差。
02.基于矩阵分解的方法
矩阵分解是一种将矩阵简化为其组成部分的方法。 这些组成成分具有较低的维度,可以用来表示网络的原始信息,如节点之间的关系。基于矩阵分解的图学习方法采用一个矩阵来表示图的特征,如顶点的成对相似性,而顶点嵌入可以通过对这个矩阵进行分解来实现。早期的图学习方法通常利用基于矩阵分解的方法来解决图嵌入问题。矩阵分解的输入是以图表示的非关系型高维数据特征,输出是一组顶点嵌入。 如果输入的数据位于低维流形中,那么用于嵌入的图学习可以被视为一个保留了结构信息的降维问题。基于矩阵分解的图学习主要有两种类型。一种是图拉普拉斯矩阵分解,另一种是顶点邻近性矩阵分解。
1) 图拉普拉斯矩阵分解(Graph Laplacian Matrix Factorization)
保留的图特征可以表示为成对的顶点相似性。一般来说,有两种图拉普拉斯矩阵分解,即转导式和归纳式矩阵分解。前者只能嵌入训练集中包含的顶点,而后者可以嵌入训练集中不包含的顶点。
2) 顶点邻近性矩阵分解(Vertex Proximity Matrix Factorization)
除了解决上述广义的特征值问题,矩阵分解的另一种方法是直接对顶点接近矩阵进行分解。一般来说,矩阵分解可以用来从非关系数据中学习图的结构,它适用于学习同质的图。基于矩阵分解,顶点接近度可以在低维空间中被逼近。 保存顶点接近度的目的是使误差最小。顶点接近矩阵的奇异值分解(SVD),还有一些其他的方法,如正则化高斯矩阵分解,低等级矩阵分解,用于解决SVD。
3) 讨论
矩阵分解算法对一个交互矩阵进行操作,以分解出几个低维矩阵。这个过程带来了一些缺点,例如,当分解的矩阵变得很大时,该算法需要很大的内存。此外,矩阵分解算法不适用于训练过程中的监督或半监督任务。
03.基于随机游走的方法
随机游走是一种方便而有效的网络采样方法,可以生成节点的序列,同时保留节点之间的原始关系。 基于网络结构,网络表示学习可以生成顶点的特征向量,从而使下游任务可以在低维空间中挖掘网络信息。
1) 基于网络结构的随机游走
图结构的数据有各种数据类型和结构。图中编码的信息与图结构和顶点属性有关,这是影响网络推理的两个关键因素。 在实际应用中,很多网络只有结构信息,而缺乏顶点属性信息。如何有效地识别网络结构信息,如重要顶点和不可见的链接,引起了网络科学家的兴趣。图数据具有高维的特点,统的网络分析方法不能用于分析连续空间中的图数据。
网络结构信息在各种网络分析任务中发挥着重要作用。 除了这些结构信息外,原始网络空间中的属性信息在建模网络的形成和演化中也很关键。
2) 基于结构和定点信息的随机游走
除了网络拓扑结构外,许多类型的网络还具有丰富的顶点信息,如网络中的顶点内容或标签。
顶点属性为改善网络表征提供了有效的信息,有助于学习嵌入式矢量空间。 在网络拓扑结构相对稀疏的情况下,顶点属性信息可以作为补充信息来提高表示的准确性。在实践中,如何有效利用顶点信息以及如何将这些信息应用于网络顶点嵌入是网络表示学习的主要挑战。
随机游走可以被看作是马尔可夫过程,该过程的下一个状态只与上一个状态有关,这被称为马尔可夫链。
3) 异质网络中的随机游走
现实中大多数网络包含不止一种类型的顶点,因此网络是异质的。 与同质的网络表示学习不同,异质网络表示学习应该很好地保留不同顶点之间的各种关系。异质网络表示学习中实体之间的接近程度不仅仅是简单的距离或接近程度的衡量,应该考虑顶点和链接之间的语义。典型的异质场景包括知识图谱和社交网络等。知识图谱嵌入的关键思想是将顶点及其关系嵌入到一个低维向量空间,同时可以保留知识图谱的固有结构
另一个被广泛研究的异质网络类型是社交网络,由于顶点和关系的类型不同,社交网络在本质上是异质的。嵌入异质社会网络的方法主要有两种,包括基于元路径的方法和基于随机游走的方法。
异质网络中的元路径被定义为一个顶点类型的序列,编码各种类型顶点之间的重要复合关系。
4) 时变网络中的随机游走
网络是随时间演变的,这意味着可能出现新的顶点和新的关系。因此,在网络分析中捕捉网络的时间行为意义重大。 人们在学习时变网络嵌入(如动态网络或时变网络)方面做了很多努力。与静态网络嵌入相比,时变的NRL应该考虑网络的动态性,这意味着旧的关系可能变得无效,新的链接可能出现。
时变网络表示学习的关键是找到一种合适的方法,通过合理的更新方法将时间特征纳入嵌入。
目前的图神经方法只擅长学习局部邻域信息,不能直接利用图的高阶邻近性和社区结构。
5) 讨论
随机游走是对网络进行采样的基本方式,节点的序列可以保留网络结构的信息。 然而,这种方法也有一些缺点。例如,随机游走依赖于随机策略,这就产生了一些不确定的节点关系。为了减少这种不确定性,它需要增加样本的数量,这将大大增加算法的复杂性。一些随机游走的变体可以保留网络的局部和全局信息,但它们在调整参数以适应不同类型的网络方面可能并不有效。
04.基于深度学习的方法
深度学习是近年来最热门的领域之一。然而,将现有的神经网络模型,如递归神经网络(RNN)或卷积神经网络(CNN),扩展到图数据是一项具有挑战性的任务。Gori等人提出了一个基于递归神经网络的GNN模型。在这个模型中,实现了一个传递函数,它将图或其顶点映射到一个m维的欧氏空间。近年来,有很多GNN模型被提出。
1) 图卷积网络
- 时域以及谱方法(Time Domain and Spectral Methods)
卷积是深度学习中常见的操作之一。然而,由于图缺乏网格结构,图像或文本的标准卷积不能直接应用于图。
- 空间域以及空间方法(Space Domain and Spatial Methods)
谱图理论提供了一种图上的卷积方法,但是许多网络学习方法方法直接在空间域的图上使用卷积操作。
2) 图注意力网络
在基于序列的任务中,注意力机制被认为是一个标准方法。GAT 是一种基于空间的GCN。 它在确定顶点邻居的权重时使用了注意力机制。门控注意力网络(GAANs) 也引入了多头注意力机制来更新一些顶点的隐藏状态。与GATs不同,GAANs采用了一种自注意机制,可以为不同的头计算不同的权重。其他一些模型,如图注意模型(GAM) 被提出来用于解决不同的问题,GAM的目的是处理图分类。因此,GAM 通过自适应地访问重要顶点的序列来处理信息。GAM的模型包含LSTM网络,一些参数包含历史信息、策略和其他从探索图中产生的信息。注意力游走(AWs) 是另一种基于GNN和随机游走的学习模型。与DeepWalk相比,AWs在对共现矩阵进行因子化时使用可微分的注意力权重。
3) 图自动编码
GAE 使用GNN结构将网络顶点嵌入到低维向量中。 最普遍的解决方案之一是采用多层感知作为输入的编码器。其中,解码器重构顶点的邻域统计。
4) 图生成网络
图生成网络的目的是根据给定的观察图集合生成图。 许多以前的图生成网络的方法都有自己的应用领域。例如,在自然语言处理中,语义图或知识图谱是根据给定的句子生成的。研究者们提出了一些通用的方法。其中一种认为生成过程是顶点和边的形成。另一种是采用生成式对抗训练。
5) 图的空间-时间网络
图的空间-时间网络同时捕捉图的空间和时间依赖性。 全局结构包含在空间-时间图中,每个顶点的输入随着时间的变化而变化。例如,在交通网络中,每个传感器作为一个顶点连续记录道路的交通速度,其中,交通网络的边由传感器对之间的距离决定。空间-时间网络的目标可以是预测未来的顶点值或标签,或者预测空间-时间图的标签。
6) 讨论
在这种情况下,图学习任务可以被看作是通过使用梯度下降算法优化目标函数。 因此,基于深度学习的网络表示学习模型的性能会受到梯度下降算法的影响。它们可能会遇到局部最优解和梯度消失问题等挑战。
03. 应用
许多问题都可以通过图学习方法来解决,包括监督学习、半监督学习、无监督学习和强化学习。 一些研究者将图学习的应用分为三类,即结构化场景、非结构化场景和其他应用场景 。结构化场景指的是数据以明确的关系结构进行的情况,如物理系统、分子结构和知识图谱。非结构化场景指的是数据具有不明确关系结构的情况,如图像和文本。其他应用场景包括,例如,整合模型和组合优化问题。下表列出了各种图学习方法的神经组件和应用。
04. 开放性问题
在这一节中,简要地总结了图学习的几个未来研究方向和开放性问题。
- Dynamic Graph Learning
现有的大多数图学习方法都适用于没有特定约束的静态网络。 然而,动态网络随时间变化,它们很难被处理。动态图学习算法在文献中很少被研究。
- Generative Graph Learning
受生成式对抗网络的启发,生成式图学习算法可以通过博弈论上的最小值博弈来统一生成式和判别式模型。 这种生成图学习方法可用于链接预测、网络演化和推荐,通过交替和迭代提高生成和判别模型的性能。
- Fair Graph Learning
大多数图学习算法都依赖于深度神经网络,所产生的向量可能已经包含了不想要的敏感信息。网络中存在的偏置被强化了,因此,将公平指标整合到图学习算法中以解决固有的偏置问题具有重要意义。
- Interpretability of Graph Learning
图学习的模型一般都很复杂,因为它同时包含了图结构和特征信息。图学习算法的仍然是一个黑箱模型,其可解释性仍未解决。 例如,药物发现可以通过图学习算法实现。然而,这种药物是如何被发现的,以及这种发现背后的原因都是未知的。因此图学习背后的可解释性需要进一步研究。