【联邦学习阅读笔记】Efficient Distribution Similarity Identification in Clustered Federated

239 阅读4分钟

论文题目:Efficient Distribution Similarity Identification in Clustered Federated Learning via Principal Angles Between Client Data Subspaces

一、摘要
目的: 该论文的目的是在聚类联邦学习中解决数据分布差异性识别的问题。具体而言,它关注于在存在客户端数据分布显著差异的情况下,通过直接分析客户端数据子空间之间的主要角度,高效地识别数据分布的相似性。

方法:
本文分析客户端数据子空间之间的主角,有效识别客户端之间的分布相似性。
每个客户端以单次方式对其本地数据应用 截断奇异值分解(SVD)  步骤,以派生一小组 主向量,该主向量提供简洁地捕获 底层分布的主要特征的签名。这个小的主向量集被提供给服务器,这样服务器就可以直接识别客户机之间的分布相似性,从而形成集群。
通过比较由这些主向量张成的客户端数据子空间之间主角度 Principal angles的相似性来实现的。

结果: 该方法成功地识别了客户端数据分布之间的相似性,从而形成了具有相似分布的客户端群集。这表明这种方法是有效的,并且可以在现实情况下产生实质性的结果。

结论/意义: 这项研究的结论是,通过分析主要角度的方法在聚类联邦学习中可以高效地识别客户端之间的数据分布相似性。这一方法不仅在提高效率方面取得了突破,还针对广泛的数据异构性问题提供了解决方案,超越了简单的非独立同分布(Non-IID)情形,如标签不平衡等。此外,该方法也为非凸目标的收敛性保证提供了可能性。这对于联邦学习领域的发展以及处理数据异构性问题具有重要意义。

二、前言
背景:
需要解决的问题:
服务器如何通过 一次性 地将客户端分组到集群中,而不需要 先验地知道集群的数量 ,但通信成本大大降低,从而有效地实现集群FL ?

已有研究不足:

  • 随机初始化的聚类模型有噪声,训练过程耗时长,因为需要等聚类稳定。
  • 需要提前预设集群数量,不考虑任务差异,部分客户端性能差
  • 每轮迭代,活动客户端下载需要所有集群模型,通信昂贵
  • 难以平衡个性化和全局化之间的灵活性。

本文开展研究:
本文贡献:主角分析聚类联邦学习(PACFL)。  通过分析客户端数据子空间之间的主角来有效地识别客户端之间的分布相似性
加入FL的客户端仅需一次对其本地数据应用截断SVD步骤,派生 一小组主向量 ,构成底层数据的主基, 主基 提供一个签名,简洁的 捕获了底层分布的主要特征
服务器可以通过主向量识别客户端之间的分布相似性,形成集群。
提供了数据隐私保护,可以另外 添加 加密机制 差分隐私。

通过比较所提供的主向量所跨越的客户端数据子空间之间的主角有效识别客户端之间的分布相似性:客户端之间的数据异构性差异越大,子空间就越正交

新客户端的加入: 对比新客户端上传的主向量,对比已有的聚类,通过角度相似度分析,  分配到现有集群或者自成一派。

注: Principal angles 主要用于分析两个子空间之间的关系
Principal Angles 是指两个子空间之间的最小夹角,或者说是使得两个子空间之间的余弦距离最大的夹角。这个概念可以帮助我们判断两个子空间之间的相似度或者相关性。如果两个子空间之间的 Principal Angles 接近零,那么它们可能是高度相关的;如果 Principal Angles 接近九十度,那么它们可能是相互独立的。

三、提出的算法