Federated Graph Neural Networks: Overview, Techniques and Challenges

Introduction

我们提出了一种二维 (2D) 分类法，从两个角度对 FedGNNs 的现有工作进行分类：1) 主要分类法——FL 和 GNNs 如何集成在一起； 2) 辅助分类法——FedGNN 如何处理 FL 客户端之间的异质性。我们强调了每个类别的挑战、具体方法和潜在限制。
我们讨论了现有文献中普遍采用的公共数据集和评估指标，用于 FedGNNs 基准测试，并提供有关增强 FedGNNs 实验设计的建议。
我们展望了未来有希望的研究方向，以构建更稳健、可解释、高效、公平、归纳和全面的 FedGNN，以提高该领域的可信度。

Terminology and Taxonomy

将联邦图神经网络按照如下三层结构进行分类：在第一类中，数据所有者通过图形拓扑相关联。在这一类别中又可以分为以下两小类：

有中央服务器
没有中央服务器

中央服务器具有客户端间图形拓扑的全局视图。它可以利用这一观点在服务器中训练一个GNN模型来改进FL聚合和帮助客户更新他们的本地图。

在第二类中，数据所有者与图拓扑不相关。在这一类别中又可以分为以下三小类：

没有重叠节点的客户端
部分重叠节点的客户端
完全重叠节点的客户端

Data Owners Related by a Graph

有中央服务器的联邦图神经网络

客户端的本地数据不一定需要是图形数据。中心服务器根据图中的关系来协调客户端。服务器执行两个协调活动。首先，基于图的拓扑结构进行GNN聚合。其次，它帮助客户更新他们的本地图形，根据图形拓扑估计连接不同客户节点的缺失边。

没有中央服务器的联邦图神经网络

系统中没有服务器来协调数据拥有者，数据拥有者要么持有正常数据，要么持有图数据。数据所有者与他们的邻居直接通信(也就是说,客户端之间的图形拓扑是事先知道的)。

Data Owners not Related by a Graph

无重叠节点的客户端

客户端使用本地图形数据训练本地GNN模型，并将模型参数上传到服务器以进行FL聚合。

具有部分重叠节点的客户端

具有完全重叠节点的客户端

每个客户端只持有部分节点特征，只有部分客户端持有学习任务的标签。所有客户端都持有相同的节点集合，它们将节点嵌入而不是模型参数上传到服务器进行FL聚合。现有的工作集中在垂直划分的引用网络数据与两个客户端。

Promising Future Research Directions

抵抗恶意攻击

通过共享节点嵌入、图拓扑和模型参数，FedGNNs具有大型攻击面。需要进行更多的研究，以探讨FedGNNs如何在面对恶意的隐私攻击时变得更加强大。

用于动态图数据的FedGNN

动态图数据中的图拓扑或节点特征可以随时间变化。在这种情况下，在GNN训练过程中需要考虑时间信息。然而，在图相关的FL客户机的设置中，客户机之间的关系也可以随着时间的推移而演变。因此，需要探索FedGNN方法，其中边缘权重和FL客户端之间的连接是可学习的。

用于大规模图形数据的高效FedGNN

现有的FedGNNs一般采用小规模分布式数据集进行研究。因此，通信效率尚未得到充分考虑。然而，为了将FedGNNs扩展到大规模图数据(例如,知识图谱)，通信开销可能是一个重要的瓶颈，因为数据拥有者往往采用具有大量模型参数的多层GNN模型进行传输。

FedGNNs的可解释性

FedGNN涉及复杂的模型结构和训练过程。因此，在这种设定下实现可解释性更具有挑战性。将可解释性融入到FedGNN中，需要联合考虑所涉及的利益相关者对可解释性的需求，同时有效平衡保护隐私和训练模型的目标。

去中心化FedGNNs中的多跳邻域聚合

在现有的去中心化FedGNN研究中，仅对1跳邻居的模型参数进行聚合，为每个数据拥有者生成个性化的FL模型。尽管这种方法简化了模型结构，但它限制了FedGNN利用数据拥有者间图中丰富的邻域信息的能力。使FedGNNs能够超越这一限制，同时保持模型结构和训练过程合理简单的新技术是可取的。

用于基准测试的真实分布式图形数据集

现有的FedGNN研究工作大多采用合成的分布式图数据进行评估。这些数据来自GNN基准数据集。为了将它们放入FL设置中，目前的做法是将整个图划分为多个子图，然后将这些子图分配给不同的数据所有者。以这种方式分配给每个数据所有者的子图的规模往往较小。FedGNN领域的长期发展仍然需要建立现实和大规模的联邦图形数据集，以支持在接近实际应用的环境下进行实验评估。真实世界的图数据集，如脑关联数据集、分子数据集、推荐系统和知识图谱，可以作为有用的起点。