【论文阅读】rGINs:Random Features Strengthen Graph Neural Networks

232 阅读9分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第27天,点击查看活动详情

前言

Hello! 非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~   自我介绍 ଘ(੭ˊᵕˋ)੭ 昵称:海轰 标签:程序猿|C++选手|学生 简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖...已保研。 学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!   唯有努力💪  

知其然 知其所以然!

  本文仅记录自己感兴趣的内容

简介

原文链接:epubs.siam.org/doi/10.1137…

会议:SDM (CCF-B)

代码:github.com/joisino/ran…

年度:2021

Abstract

图神经网络(gnn)是一种强大的机器学习模型,可用于各种图学习任务

最近,各种GNN模型的表达能力的局限性被揭示出来

  • 例如,gnn不能区分一些非同构图,不能学习高效的图算法

在本文中,我们通过向每个节点添加随机特性来演示gnn的强大功能

证明了该随机特征使gnn能够学习最小支配集问题和最大匹配问题的近似最优多项式时间逼近算法

我们的方法的主要优点是,它可以与现成的GNN模型相结合,只需稍加修改

通过实验,我们证明了随机特征的添加使gnn能够解决普通gnn,包括图卷积网络(GCNs)和图同构网络(GINs)不能解决的各种问题

1 Introduction

图神经网络(GNNs)[15,38]已经在各种图学习任务中取得了最先进的性能,包括化学信息学[13]、问题回答系统[39]和推荐系统[43,44,49]

近年来,gnn的理论能力得到了广泛的研究

  • Morris et al.[29]和Xu et al.[48]指出gnn的表达能力最多与一维Weisfeiler-Lehman (WL)测试[46]相同
  • Sato等[37]考虑了消息传递型gnn处理组合问题的理论能力,证明了gnn的表示能力与分布式局部算法[42]相同,并推导出了gnn可以学习的算法的近似比。但是,它们的近似比比现有算法要高得多[7,20]。他们建议使用特征工程来改善这些比率;然而,改进后的比率仍远未达到最优

本文提出了一种非常简单有效的方法来改进gnn的逼近比,该方法可以在度有界的假设下获得接近最优的逼近比

  • 即,我们建议在每个节点上添加一个随机特征

图1显示了一个示例

  • 如果节点特性相同,则消息传递gnn无法区分由3个或6个节点组成的环中的一个节点(图1 (a))
  • 相反,如果每个节点都具有随机特征,gnn可以通过检查是否存在与深度3的根节点相同的值来判断长度为3的循环是否存在(图1 (b))

在这里插入图片描述

尽管这种启发式方法似乎工作得很好,类似的技术(如关系池[31])也表明了它的有效性,但添加随机特性是否能提高近似比并不是无关紧要的

在本文中,我们提出了具有随机特征的图同构网络(GINs),它在每次调用过程时为每个节点添加一个随机值

我们证明了随机特征的加入确实提高了gnn的近似比理论能力

简而言之,我们提出的方法使gnn学习随机算法,而标准gnn只学习确定性算法

众所周知,分布式随机化算法比分布式确定性算法[42]更强大,我们的方法有望使gnn更强大

表1总结了我们的主要结果

在这里插入图片描述

重要的是,我们的结果与CPNGNNs[37]有一个良好的特性,可以应用于可变大小的图

我们证明了对于任意大小的图,存在一些参数使rGINs的输出距离最优解w.h.p.不远

这是与大多数以前的工作[9,21,28]的关键区别,包括关系池[31],其中图大小的上界事先是固定的

虽然作者[31]提出了像我们一样使用固定不变的支撑,但是减少支撑的效果并不清楚,而我们证明了即使支撑只有常数个数的元素,gnn仍然是强大的

因此,本研究为无界尺寸图的gnn理论研究提供了重要的一步,并对已有的研究结果进行了强化

在本研究中,我们通过将某种类型的常数时间算法[32,35]转换为rGINs,推导出rGINs可以学习的算法的近似比

反过来,我们也证明了rgin可以转换为常数时间算法

这表明GNN理论的发展促进了等时间算法理论的发展

2 Related Work

gnn的起源可以追溯到Sperduti et al.[41]和Baskin et al.[3],他们的目标是利用神经网络从图数据中提取特征

  • Gori等人[15]和Scarselli等人[38]提出了新的图学习模型,使用递归聚合操作直到收敛,这些模型被称为图神经网络
  • Bruna等人[6]和Defferrard等人[10]利用图谱分析和图信号处理[40]构建GNN模型
  • 图卷积网络(GCNs)[23]利用线性滤波器近似光谱模型,将其简化为高效的空间模型
  • Gilmer等人[13]利用消息传递机制对gnn进行了表征,提供了统一的gnn视图。

虽然gnn在经验上是成功的,但它们的局限性最近才被发现

  • Morris et al.[29]和Xu et al.[48]指出gnn的表达能力最多与1-WL测试[46]相同,不能解决图同构问题
  • 与Janossy pooling[30]类似,关系池[31]利用所有节点的排列构造通用不变和等变网络,并提出近似格式使计算变得可处理
  • Sato等人[37]研究表明gnn的表示能力与分布式局部算法[1,17,42]相同,而分布式局部算法与模型逻辑[17]具有相同的表示能力
  • Loukas[25]和Barceĺo等人[2]演示了gnn与分布式局部算法和模态逻辑之间的类似连接
  • Loukas[25]描述了gnn不能学习的东西。他特别指出,消息传递gnn不能解决许多任务,即使有强大的机制,除非它们的深度和宽度的乘积多项式地依赖于节点的数量。相反,我们的主要动机是表现积极的结果的表现力。虽然他也展示了积极的结果,但他的假设(例如,图灵普适性和唯一节点标签)比我们的强得多

我们使用GINs来代替图灵通用模型,并使用i.i.d.采样来处理可变大小的图

在我们完成这项工作后,我们注意到一个并行的工作[9]显示添加着色改善了gnn。

们的工作和我们的工作有两方面的不同

  • 首先,他们不能处理可变大小的图形,因为他们使用排列,而我们可以处理可变大小的图形,因为我们使用i.i.d.抽样
  • 其次,我们通过近似比的透镜考察了gnn的表达能力,并推导出了gnn可以学习的图算法的近似比,这是它们的结果所不能得到的

一项关于gnn表达能力的调查显示[36]

RP-GNNs

本文提出的方法与关系池化的近似方案π-SGD[31]相似,但有两个不同之处:本文提出的方法可以应用于变大小的图,而原来的π-SGD则不能

这是因为关系池使用了n个元素的随机排列,而我们使用了常量支持的i.i.d.随机变量

虽然作者提出了使用固定不变的支架作为我们的支架,但减少支架的效果并不清楚,而我们证明了即使支架只有固定数量的元素,gnn仍然是强大的

此外,原来的π-SGD旨在近似一个等变关系池化层,而我们的目标是使用gnn来建模非等变函数

注意,我们的分析通过近似比的透镜来评估gnn的能力,而不像关系池,并提供了π-SGD近似的另一个理由

3 Background and Notations

.....

6 Conclusion

本文从理论上证明了随机特征的加入增强了GINs算法的性能。特别是具有随机特征的GINs (rGINs)可以区分任意局部子结构w.h.p.,并以近似最优的近似比求解最小支配集问题和最大匹配问题

rgin的主要优点是,即使使用任意大的测试图,它们也可以保证性能

在实验中,我们证明了rGINs能够解决普通GINs不能解决的三个问题,即确定三角形的存在性、计算局部聚类系数和学习最小支配集算法

我们还表明,在生物真实世界的数据集中,rGINs略优于普通GINs

读后总结

2022/08/10 第一次阅读

本文略读,大概看了一下

一个知识点就是GNN在聚合邻域的时候,对于一些结果无法进行区分/辨别

在使用GNN进行嵌入的时候,若不考虑节点的特征(角色),是否嵌入结构时,也会出现这种问题呢?

是否也可以加入一下随机特征??

emm,还得再思考思考

结语

文章仅作为个人学习笔记记录,记录从0到1的一个过程

希望对您有一点点帮助,如有错误欢迎小伙伴指正

在这里插入图片描述