Introduction
-
我们提出了一种二维 (2D) 分类法,从两个角度对 FedGNNs 的现有工作进行分类:1) 主要分类法——FL 和 GNNs 如何集成在一起; 2) 辅助分类法——FedGNN 如何处理 FL 客户端之间的异质性。我们强调了每个类别的挑战、具体方法和潜在限制。
-
我们讨论了现有文献中普遍采用的公共数据集和评估指标,用于 FedGNNs 基准测试,并提供有关增强 FedGNNs 实验设计的建议。
-
我们展望了未来有希望的研究方向,以构建更稳健、可解释、高效、公平、归纳和全面的 FedGNN,以提高该领域的可信度。
Terminology and Taxonomy
将联邦图神经网络按照如下三层结构进行分类:
在第一类中,数据所有者通过图形拓扑相关联。 在这一类别中又可以分为以下两小类:
- 有中央服务器
- 没有中央服务器
中央服务器具有客户端间图形拓扑的全局视图。它可以利用这一观点在服务器中训练一个GNN模型来改进FL聚合和帮助客户更新他们的本地图。
在第二类中,数据所有者与图拓扑不相关。在这一类别中又可以分为以下三小类:
- 没有重叠节点的客户端
- 部分重叠节点的客户端
- 完全重叠节点的客户端
Data Owners Related by a Graph
有中央服务器的联邦图神经网络
客户端的本地数据不一定需要是图形数据。中心服务器根据图中的关系来协调客户端。服务器执行两个协调活动。首先,基于图的拓扑结构进行GNN聚合。其次,它帮助客户更新他们的本地图形,根据图形拓扑估计连接不同客户节点的缺失边。
没有中央服务器的联邦图神经网络
系统中没有服务器来协调数据拥有者,数据拥有者要么持有正常数据,要么持有图数据。数据所有者与他们的邻居直接通信(也就是说,客户端之间的图形拓扑是事先知道的)。
Data Owners not Related by a Graph
无重叠节点的客户端
客户端使用本地图形数据训练本地GNN模型,并将模型参数上传到服务器以进行FL聚合。
具有部分重叠节点的客户端
具有完全重叠节点的客户端
每个客户端只持有部分节点特征,只有部分客户端持有学习任务的标签。所有客户端都持有相同的节点集合,它们将节点嵌入而不是模型参数上传到服务器进行FL聚合。现有的工作集中在垂直划分的引用网络数据与两个客户端。
Promising Future Research Directions
抵抗恶意攻击
通过共享节点嵌入、图拓扑和模型参数,FedGNNs具有大型攻击面。需要进行更多的研究,以探讨FedGNNs如何在面对恶意的隐私攻击时变得更加强大。
用于动态图数据的FedGNN
动态图数据中的图拓扑或节点特征可以随时间变化。在这种情况下,在GNN训练过程中需要考虑时间信息。然而,在图相关的FL客户机的设置中,客户机之间的关系也可以随着时间的推移而演变。因此,需要探索FedGNN方法,其中边缘权重和FL客户端之间的连接是可学习的。
用于大规模图形数据的高效FedGNN
现有的FedGNNs一般采用小规模分布式数据集进行研究。因此,通信效率尚未得到充分考虑。然而,为了将FedGNNs扩展到大规模图数据(例如,知识图谱),通信开销可能是一个重要的瓶颈,因为数据拥有者往往采用具有大量模型参数的多层GNN模型进行传输。
FedGNNs的可解释性
FedGNN涉及复杂的模型结构和训练过程。因此,在这种设定下实现可解释性更具有挑战性。将可解释性融入到FedGNN中,需要联合考虑所涉及的利益相关者对可解释性的需求,同时有效平衡保护隐私和训练模型的目标。
去中心化FedGNNs中的多跳邻域聚合
在现有的去中心化FedGNN研究中,仅对1跳邻居的模型参数进行聚合,为每个数据拥有者生成个性化的FL模型。尽管这种方法简化了模型结构,但它限制了FedGNN利用数据拥有者间图中丰富的邻域信息的能力。使FedGNNs能够超越这一限制,同时保持模型结构和训练过程合理简单的新技术是可取的。
用于基准测试的真实分布式图形数据集
现有的FedGNN研究工作大多采用合成的分布式图数据进行评估。这些数据来自GNN基准数据集。为了将它们放入FL设置中,目前的做法是将整个图划分为多个子图,然后将这些子图分配给不同的数据所有者。以这种方式分配给每个数据所有者的子图的规模往往较小。FedGNN领域的长期发展仍然需要建立现实和大规模的联邦图形数据集,以支持在接近实际应用的环境下进行实验评估。真实世界的图数据集,如脑关联数据集、分子数据集、推荐系统和知识图谱,可以作为有用的起点。