AutoSSL:图的自动自监督学习

211 阅读4分钟
参与拿奖:本文已参与「新人创作礼」活动,一起开启掘金创作之路
论文题目:Automated Self-Supervised Learning for Graphs [1]
论文来源:ICLR2022
一、Motivation

Different pretext tasks affect downstream tasks differently across datasets, which suggests that searching over pretext tasks is crucial for graph self-supervised learning.

不同的预设任务会对下游任务造成不同的影响,搜索一个好的预训练任务对于图自监督学习来说很重要。

image.png 如上图所示,图a与图b表明了不同的自监督任务所训练的模型在不同的下游任务上表现差异较大,因此如何选择自监督任务来用于不同的数据集和下游任务特别重要。图c表明对于不同的自监督任务使用不同的权重对于下游任务的性能影响也较大。同时在等权重的情况下,不一定表现能够优于单一任务。

二、Model

作者提出了两个工具用于解决上面发现的问题,伪同质性和搜索算法。

同质性[2]:具有相同类别标签端点连边所占整个图中边的比例。公式如下:

image.png

因为是自监督任务,所以事先不知道下游任务的label,因此作者为了使用同质性这一理论,引入了聚类的方法来构造伪label。为什么可以通过构造伪label来使用同质性原理,进而提升模型效果,作者在文章中提出了一个理论,并进行了证明:最大化伪同质的特性可以帮助最大化伪标签和下游标签之间互信息的上限。详细证明过程参看:附录B。

为了进行优化,作者提出了两种搜索算法,CMA-ES[3]和软聚类元学习。

image.png

CMA-ES算法,该方法使用自适应协方差矩阵遗传算法来进行迭代寻找最优的组合权重。在每一次迭代中,CMA-ES从多元正态分布中采样一组候选解,并计算组合损失,然后由H评估,基于评估结果,CMA-ES调整正态分布,使得更好的权重有更高的被选中的概率。

image.png 主要公式如下:

image.png 利用GMM进行软聚类,假设聚类中心为ci,每一个正态分布具有相同的采样方差theta方,然后利用贝叶斯法则,并假设各个聚类的出现概率相同,可以得到给定节点embedding后该节点属于某个类别的概率。如公式(4)所示,判断两个节点是否同质的直接根据两个节点的距离就可以了,作者引入了距离函数l,可以得到公式(5)所示的软伪同质函数。 image.png 又因为H与lambda不是直接相关的,于是需要采用元学习的优化方法进行优化,具体形式如公式(6),其中lambda属于元学习中的外层优化,opt theta属于内层优化,作者借鉴了DARTS的思路做在线更新,每更新一次外层,更新一次内层。

三、Data & Experments

使用了多个数据集,用于节点聚类和分类。

image.png

四、Performance

下图是作者做的关于不同自监督任务在用于节点分类和节点聚合的效果对比: image.png 与Baseline模型的对比结果如下图:

image.png

image.png 在附录中,作者还做了关于使用随机权重和相等权重的对比实验:

image.png

五、Conclusion

SSL tasks designed for graphs perform differently on different datasets and downstream tasks. It is worth composing multiple SSL tasks to jointly encode multiple sources of information and produce more generalizable representations.

用于图的自监督学习任务在不同的数据集和下游任务上表现很大的不同。将多个自监督任务联合用于编码多种信息和产生更一般化的表示是很有用的。

Without access to labeled data, it poses a great challenge in measuring the quality of the combinations of SSL tasks.

因为事先不知道下游任务的标签,这对于测量多个联合自监督学习任务来说是一个挑战。作者根据同质性[2]提出伪同质性,并对其进行了理论证明。最后提出了两种自动搜索算法,实验结果表明了该框架的有效性。

六、References

[1]Jin W, Liu X, Zhao X, et al. Automated self-supervised learning for graphs[J]. arXiv preprint arXiv:2106.05470, 2021.

[2]Zhu J, Yan Y, Zhao L, et al. Beyond homophily in graph neural networks: Current limitations and effective designs[J]. Advances in Neural Information Processing Systems, 2020, 33: 7793-7804.

[3]Hansen N, Müller S D, Koumoutsakos P. Reducing the time complexity of the derandomized evolution strategy with covariance matrix adaptation (CMA-ES)[J]. Evolutionary computation, 2003, 11(1): 1-18.