发表于2020年。
A review of applications in federated learning
ABSTRACT
联邦学习 (FL) 是一种协作分布式的隐私保护技术,用于克服数据孤岛和数据敏感性(隐私)的挑战。究竟是什么研究推动了联邦学习的发展,这是学术界和工业界感兴趣的问题。本研究综述了联邦学习,探讨了联邦学习发展过程中存在问题的主要进展路径,以促进对联邦学习的理解。本研究旨在回顾联邦学习在工业工程中的普遍应用,以指导未来的落地应用。本研究还确定了六个研究前沿来解决联邦学习文献中提到的问题,并帮助我们理解联邦学习以及用于未来的优化。本研究有助于总结在工业工程和计算机科学中的应用,并对联邦学习的应用进行总结。
Introduction
随着存储能力和处理能力的发展,数据科学在工业工程中的重要性越来越明显。近年来,人工智能、机器学习、智能生产、深度学习在工业工程领域得到爆发式发展 (Li, Wang, & Lin, 2020; Lin, 2018).然而,随着数据科学的发展,这一领域存在两大挑战。
- 首先,数据治理是最重要的方面。出于法律考虑,某些数据已私有化。随着通用数据保护条例 (GDPR) 的颁布(EU, 2018),用户成为自己数据的绝对所有者。任何机构或组织未经同意均无权使用用户自己的数据。
- 其次,数据孤岛也是制约现代工业发展的一个面临问题,因为更多的训练数据会提高训练性能。例如,与最早的AlphaGo相比,它使用了16万组人类棋类数据,可以击败入门级职业棋手。Alpha Zero (Holcomb, Porter, Ault, Mao, & Wang, 2018) 使用了 286 亿组人类和机器生成的国际象棋数据,可以轻松击败职业棋手。此外,数据标注依赖于医疗行业等某些领域的经验丰富的工作者,这可能导致有效数据的稀缺性。标记数据的稀缺也不利于产业发展。然而,联邦学习的出现恰好克服了工业上的这些挑战。
联邦学习是一种新兴的机器学习方案,旨在解决数据孤岛问题,同时保护数据隐私。它是指多个客户端(如移动设备、机构、组织等)与一个或多个中央服务器协调进行去中心化机器学习环境。 2016年谷歌首次提出,在数万台Android设备中预测用户的文本输入,同时将数据保存在设备上 (McMahan, Moore, Ramage, Hampson, & Arcas, 2017)。联邦学习的原始过程一般描述为图1所示。
这种联邦训练方法称为联邦平均(FedAvg),这是许多其他联邦学习研究中的基线。首先,每个设备都下载一个通用的全局模型,用于后续的本地训练。首先,每个设备都下载一个通用的全局模型,用于后续的本地训练。其次,下载的全局模型将通过本地数据多次本地更新来改进,这些数据分别属于不同的移动设备,然后以加密方式将相关梯度信息上传到云端。第三,在云中实现的本地模型的平均更新将作为更新的全局模型发送到设备。最后,重复上述过程,直到模型达到某个期望的性能或最终期限到来。该技术的出现将解决分散设备的数据隐私和数据共享之间的矛盾。由于数据不暴露给第三方中心服务器的特性,联邦学习适用于对隐私敏感的数据应用。这些包括医疗保健或移动设备中的数据因法律问题而无法汇总的情况。
最近,许多学者联合起来发表论文,回顾联邦学习的进展和未解决的问题。研究进一步提供了几个增强联邦学习贡献的方面 (Kairouz, McMahan, Avent, Bellet, Bennis, Bhagoji, & Zhao, 2019).受联邦学习研究在工业领域的广阔前景和不断增长的推动,本研究旨在回顾联邦学习在工业工程中的普遍应用,以指导未来的落地应用。这项研究总结了联邦学习的特征和仍然存在的挑战,阐明了研究人员为优化联邦学习所做的各种解决方案。本研究回顾了联邦学习的相关研究,以基线为基础,确定解决联邦学习问题的文献的前沿,并帮助推进我们对联邦学习的理解,以利于未来的优化。
本文的组织结构如下。除了引言,我们在第二节中简要介绍了联邦学习的概况,包括特点和主流开源框架以及类别。在第3节中,我们指出了FL中的三个挑战,以及相对的改进。此外,我们还总结了FL中的间接信息泄露和FL中采用的现有隐私保护方法。第四部分讨论了在物联网设备中的实际应用,以及在工业工程和医疗保健中的应用。最后,我们给出了一些前沿的成果,围绕这些讨论,我们描述了一些有前景的FL方向,为未来的工作提供了指导。
Overview of federate learning
2.1 Characteristics of FL
FL与分布式机器学习高度相关。传统的分布式系统是由分布式计算、分布式存储组成的。首次提出的 Android 客户端模型更新 FL 在某种程度上类似于分布式计算。尽管 FL 非常重视隐私保护,但分布式机器学习的最新研究也非常关注隐私保护分布式系统。分布式处理是在中心服务器的控制下,通过通信网络将不同地点的多台计算机连接起来,使每台计算机分别承担同一任务的不同部分来完成。因此,分布式处理主要针对加速处理阶段,而 FL 侧重于构建无隐私泄露的协作模型。为了更具体地揭示 FL 和分布式学习之间的区别,我们强调了 FL 的以下特征。
2.1.1. Universality for cross-organizational scenarios
本质上,谷歌提出的FL是一种加密分布式机器学习技术,允许参与者建立联合训练模型,但在本地维护基础数据。然后将 FL 的原始概念扩展为指代所有保护隐私的去中心化协作机器学习技术 (Yang, Liu, Chen, & Tong, 2019). 因此,FL 不仅可以根据样本处理水平分区数据,还可以根据协作学习环境中的特征处理垂直分区数据。可以扩展 FL 以将跨组织企业纳入联邦框架。例如,拥有客户购买力数据的银行可以与拥有产品特性数据的电商平台合作,进行产品推荐。从而智能构建多实体、多数据源、不同特征维度的联合模型。这使得所有人都能在保护数据隐私的前提下,实现跨平台、跨区域的共创价值。
2.1.2. Massively non-identically independent distribution (Non-IID)
在 FL 中,数据广泛存在于数以万计的边缘节点或移动设备中。每个节点中的可用数据可能不超过节点总数。而在分布式系统中,主要目的是提高并行度,以减轻中央服务器的计算或存储压力。分布式系统中的节点数量达不到与 FL 相同的数量级。当今世界已进入可穿戴设备广泛用于健康监测的时代。(Edwards, 2019)每个设备只产生一些数据,不能与设备总数进行比较。显然,在这种情况下,FL更适合做模型改进。与主要处理平衡和 IID 数据分布的分布式系统相比,由于设备资源之间的异构性,FL 专注于不平衡和非 IID 数据。
2.1.3. Decentralized technology
严格技术意义上的去中心化,并不是完全的去中心化,而是没有明确的中心。去中心化只是为了淡化中心节点的意识。没有中心决定每个客户,每个客户去影响中心模型。节点之间的影响将通过客户端形成的网络产生非线性关系。参数服务器是一种典型的分布式和集中式技术,主要是利用中央服务器主导调度数据分布和计算资源,以获得高效的协同模型 (Ho, Cipar, Cui, Lee, Kim, Gibbons, & Xing, 2013).这种集中的数据处理方式造成了双倍的通信开销。因为如果收集一些分散在不同数据库中的数据集用于训练,这些数据应该首先被复制然后传输到中央服务器。然后中央服务器将数据分配给各个分布式客户端进行分布式计算。它在计算能力、存储和带宽方面对系统进行了额外的严格测试。对于 FL 中的案例,每个客户端都是完全自主的,数据不由中心分配,训练过程不受服务器控制。因此,FL 是一种通过去中心化协作将机器学习模型和数据融合相结合的集成技术。
2.1.4. Equality of status for each node
在此协作框架下,各方享有平等地位和一定自主权,实现共同繁荣。在传统的分布式协同训练中,谁拥有海量数据,谁就处于平等地位。 因此,在工业领域中,协作学习的发展可能会受到具有大量数据或具有标签类型图像的组织偏好的不利影响。对于深度学习网络的联合训练,那些拥有大数据的机构可以操纵预测模型,因此中小型组织没有联合训练的动力。然而,在 FL 中,由于各方平等,这些具有小数据集的客户端的位置将得到提升。
总而言之,FL 是一种去中心化技术,它使分散的客户或组织能够自主地训练协作模型,同时保持数据本地化。这种方法可以支持企业组织在不共享任何原始数据的情况下共享协作模型。
2.2. Open source framework
FL目前已经有两个主流的开源框架,并且已经初具规模。一种是 TensorFlow Federated (TFF) 框架,用于服务机器学习或其他对分散数据的计算需求。(Google, 2019).它是第一个在生产级别主要为移动设备设计的自包含框架。特别是,TFF 集成了用于模型更新的 FedAvg 和用于隐私问题的 Secure Aggregation算法。(Bonawitz, Ivanov, Kreuter, Marce- done, McMahan, Patel, & Seth, 2017). 该 TTF 由 FL API 和 Federated Core (FC) API 组成。具体来说,FL API 提供了一组高阶接口,使用户可以应用包含的机器学习在内的方法来处理联邦训练。FC API,联邦学习的基础层,服务于分布式计算。此外,它已成功应用于移动键盘中的下一个单词预测或表情符号预测(Ramaswamy, Mathews, Rao, & Beaufays, 2019)。在实际应用中,它已经实现了千万级设备的应用,同时希望具有高度的可扩展性来处理亿级设备的计算。
另一个是微众银行团队创建的 Federated AI Technology Enabler (FATE)。(Webank, 2019a).作为第一个开源的工业级框架,主要服务于跨组织架构。它基于同态加密和安全多方计算为客户端提供足够的隐私。此外,各种机器学习算法,如逻辑回归和深度学习,以及迁移学习都可以建立在这个联邦系统上。除了这些开箱即用的算法之外,大多数传统方法都可以适应这个联邦框架。目前微众银行团队在信用风控、对象检测、反洗钱等方面推动了一系列FATE的落地(Webank, 2019b)。这两个框架在 FL 的实际应用和算法改进的进一步发展中很受欢迎。
2.3. Categorization of FL
根据 Yang 等人 (2019) 发表的论文,FL 主要分为三组,分别是横向联邦学习、纵向联邦学习和联邦迁移学习。由于存储在不同节点或机构的数据主要以特征矩阵的形式存在。通常,数据由许多实例组成,表的横轴表示客户,纵轴表示客户的特征。那么我们就可以根据数据分区方式划分FL。
2.3.1. Horizontal FL
在横向联邦学习的情况下,分布在各个节点的数据的特征之间存在一定的重叠,而数据在样本空间中差异较大。目前,现有的FL算法主要针对智能设备或物联网(IOT)设备中的应用。这些场景中的 FL 通常可以归类为横向联邦学习。因为数据可能在样本空间中存在显着差异,但同时具有相似的特征空间。如上所述,Google (McMahan et al, 2017) 提出的针对 Android 手机更新的联邦模型解决方案通常是一种横向联邦学习,因为数据具有相同的特征维度。此外,为了应对有限标签实体的挑战,Gao、Ju、Wei、Liu、Chen 和 Yang (2019) 引入了层次异构横向联邦学习框架。可以解决缺少标签的问题,因为异构域自适应将通过每次将每个参与者作为目标域进行多次自适应。这将有助于脑电图 (EEG) 分类中缺乏数据注释。在医疗等实际应用中,大量的工作都离不开数据的采集。跨区域合作,每家医院都建立一个数据池共享,几乎是不可能的。因此,FL 可以为具有相似医疗信息的跨区域医院构建一个联邦网络,以改进联合模型,如图 2 所示。
2.3.2. Vertical FL
纵向联邦学习适用于数据按特征维度在垂直方向进行分区的情况。所有各方都持有同质数据,这意味着它们在样本 ID 上有部分重叠,而在特征空间上不同。例如,有一家医疗机构,他们打算通过预测的方式来识别糖尿病等疾病。根据研究,患有高血压和肥胖症的人可能容易患上 2 型糖尿病。因此,可以从一些粗略的维度来分析,例如患者的年龄和体重以及病史。如果有一个没有肥胖或高血压的年轻人,只是摄入的热量较多,缺乏运动。他也容易患糖尿病,但由于缺乏信息,无法预测和个性化(针对个人特征判断是否得糖尿病)。随着 FL 的发展,它可以与一些拥有智能手机应用程序数据集(例如计步器或饮食结构)的公司合作。更进一步,如图 3 所示,它们可以在不需要原始数据传输的情况下相互协作。
通常,学者们通过取出具有不同特征的相同实体进行联合训练来处理这个问题。与横向联邦学习相比,由于实体解析,它是一项更具挑战性的工作(Gasc´on 等人,2017)。不像横向联邦学习的情况那么简单,将所有数据集聚合在一个公共服务器中以从全局模型中学习在纵向联邦学习上不起作用,因为不同所有者之间的对应关系仍然迫切需要解决。 Nock、Hardy、Henecka、Ivey-Law、Patrini、Smith 和 Thorne (2018) 提供了一种改进的基于令牌的实体解析算法来预处理垂直分区数据。Hardy、Henecka、Ivey-Law、Nock、Patrini、Smith 和 Thorne (2017) 在线性分类器上设计了一个端到端方案,并应用同态加密来防御纵向联邦学习中诚实但好奇的对手。据悉,目前交通违章评估、小企业信用风险评估等具有共同样本空间的当事人申请均基于微众银行团队打造的FATE。此外,Cheng、Fan、Jin、Liu、Chen 和 Yang (2019) 在垂直分区数据集的设置中设计了一个名为 SecureBoost 的安全框架。然而,上述方法只能应用于逻辑回归等简单的机器学习模型。因此,纵向联邦学习仍有很大的改进空间,可以应用于更复杂的机器学习方法。
2.3.3. Federated transfer learning
与横向联邦学习和纵向联邦学习的场景不同,在大多数情况下,数据既不共享样本空间也不共享特征空间。因此,此设置中的主要问题是缺少数据标签,数据质量差。迁移学习能够将一个领域(即源领域)的知识迁移到另一个领域(即目标领域)以获得更好的学习效果,适合这种情况(Pan, Ni, Sun, Yang, & Chen, 2010).通过这种方式,Liu, Chen和Yang(2018)设想了联邦迁移学习(FTL),以推广FL,使其在涉及小交集的公共方时具有更广泛的应用。这是基于联邦迁移学习的第一个完整堆栈,包括训练、评估和交叉验证。此外,该框架下采用同态加密技术的神经网络不仅可以防止隐私泄露,而且具有与传统的不保护隐私的方法相当的准确性。然而,通信效率仍然是一个问题。因此,Sharma、Chaoping、Liu和Kang(2019)致力于改进FTL。他们使用秘密共享技术代替HE,在不降低准确率的情况下进一步降低开销。此外,它还可以扩展到阻止恶意服务器。而在先前的研究中,他们假设模型是半成实的。在实际应用中,Chen、Ning和Rangwala(2019)、Chen、Sun和Jin(2019)构建了一个FedHealth模型,该模型通过FL收集不同组织拥有的数据,并通过迁移学习为医疗保健提供个性化服务。如图4所示,一家医院的部分疾病诊疗信息可以通过超光速传输到另一家医院,帮助其他医院诊断疾病。FTL的研究还不成熟,在不同数据结构下的灵活性还有很大的发展空间。 数据孤岛和隐私保护问题是当前机器学习大规模产业化过程中遇到的突出问题。而联邦迁移学习是一种既能保护数据安全和用户隐私,又能打破数据孤岛障碍的有效方法。
3. Evolution of FL
FL的原始框架是FedAvg。尽管它可以处理一些轻量级的非iid数据。通信费用高、结构异质性等方面的挑战依然存在。最近的工作主要集中在算法优化以提高效率和准确性,以及参与者隐私以加强数据保护。在本节中,本研究将在接下来的部分中讨论进展和优化。 我们主要在算法优化层面和安全层面探索开发路径。
3.1. Optimization
自2016年FL一词首次提出以来,引起了人们的广泛关注,关于FL的研究也有了新的进展。虽然已经做了大量的工作,但在实际应用中仍有一些挑战有待克服。在落地应用优化方面,高通信成本、统计和结构异质性是目前研究人员面临的主要问题(Li, Sanjabi, Beirami, & Smith, 2020).在本节中,我们将根据开发流程和方法类别总结FL的优化路径,以克服这些挑战。如图5所示,算法优化均基于McMahan et al(2017)的论文。
第一个分支是针对高通信代价的研究。第二个分支代表了克服统计异质性挑战的进展,第三个分支代表了结构异质性。在同一分支中,不同的符号代表解决问题的不同方法。 线粗表示这些论文在谷歌Scholar中被其他论文引用的频次。线条越粗,纸张的参考频率越高。具体优化路径如下:
(1) High communication cost.
到目前为止,FL的关键瓶颈是在进行联邦训练时难以降低通信开销(Yang et al, 2019)。现代数据最重要的特点是时效性,数据的生命周期短,数据迭代更新速度快。要处理海量数据,使FL在爆炸式增长的数据下更加灵活,降低通信开销是重中之重。同时,在工作中也做出了有效的努力,减少了沟通次数,提高了模型上传速度,进一步缩短了更新时间。
3.1.1. Reducing communication rounds
由于下载和上传速度不匹配,服务器和客户端之间的通信愿意尽可能少,以减少上传时间。McMahan等人(2017)的研究被认为是FL方面的开创性工作,通过在每一轮通信之间增加每个客户端的计算量来提高通信效率。他们还指出,增加并行性意味着激励更多的客户参加每一轮培训是一种有效的方法。受到谷歌的启发,Nishio and Yonetani(2019)构建了FedCs框架,在每一轮培训中最大程度地整合可用客户端,使其在实践中高效。最大均值差异被插入到 FL 算法中,以强制本地模型从训练设备中的其他设备获取更多知识,从而加快收敛速度(Yao, Huang, & Sun, 2018)。Yurochkin 等人 (2019) 设计了贝叶斯非参数 FL 框架,这是最先进的,因为它可以在没有额外参数的情况下将本地模型聚合到联合模型中,从而避免不必要的通信回合。实验表明,他们只需要一轮通信就可以获得令人满意的准确率。
3.1.2. Decrease model update time
即使优化了通信轮次,如何加速模型更新仍然是一个问题。最初,McMahan 等人提出了两种减少模型更新时间的策略(Koneˇcný、McMahan、Yu、Richt´arik、Suresh 和 Bacon,2017)。一种是结构化更新,即通过低秩模型或随机掩码的方式只传输部分更新模型。同样,端到端神经网络是一种结构化更新模式,它将更新信息映射到较低维度的空间,从而减轻通信压力(Li & Han, 2019)。另一种是sketched更新,指的是利用压缩更新模型。 Zhu 和 Jin (2019) 优化了稀疏进化训练 (SET),因此只向服务器传送了一部分参数,类似于sketched更新。由于在每一轮中,每个客户端都操纵固定的时期,Jiang 和 Ying (2020) 设计了一种用于局部训练的自适应方法。 local training epochs是server根据训练时间和training loss决定的,当loss变小时会减少local training time。上述算法均基于随机梯度下降(SGD),但如果函数是各向异性的,则该方法效率低下。因此,Liu、Chen、Chen 和 Zhang (2020) 利用动量梯度下降来考虑每个局部训练时期的先前梯度信息,以加快收敛速度。这些算法并不完全适合所有联邦环境。因此,针对医疗行业的高效率需求,需要探索更加灵活高效的通信方式。
(2) Statistical heterogeneity.
传统的机器学习方法,隐式或显式地假设数据分布是完全独立的。这种场景适合收集所有数据,然后分布式训练。 然而,数据是从各种设备或机构收集的,因此不遵循相同的独立分布(IID)。不同设备版本的偏斜特性和临床验证可能会有所不同(Godinho 等人,2016 年)。并且跨多个横向的数据记录形式可能完全不同。此外,不同节点中的数据大小可能存在巨大差异,导致分布不平衡。为了解决这个问题,一般的解决方案是关注全局模型,或者修改局部训练模式,或者在数据预处理阶段增加一些额外的过程。
3.1.3. Focus on global model
第一个提出的 FedAvg 算法通过直接在每个设备上平均本地升级来解决这个问题。此外,Mohri、Sivek 和 Suresh (2019) 注意到之前的工作忽略了公平的重要性,这可能导致中心化模型出现偏差。他们改进了全局模型以应对由不同客户混合组成的任何目标分布。至于聚合阶段,收敛行为是另一个强调的问题。异质性的存在可能导致全局模型的误收敛。此外,Wang, X. et al (2019) 讨论了非独立同分布数据背景下基于梯度下降的 FL 的收敛边界,并进一步提出了一种改进的自适应方法,以在资源预算约束下减少损失函数。此外,Li, Huang, Yang, Wang, and Zhang (2019) 给出了非独立同分布情况下 FedAvg 的四种不同参数设置或前提的收敛定理。这些研究填补了FL算法收敛速度研究的部分理论空白。此外,它还提供了参数调整对指导收敛速度的影响。
3.1.4. Add extra data preprocessing procedure
对于数据预处理,Huang, Shea et al (2019) 引入了 FL 的聚类思想,构建了基于社区的 FL 方法。 通过将独立的数据分离到不同的集群中,然后在每个社区上进行联合训练,从而可以解决非 IID 问题。然而,一个缺点是由于高参数转换开销,它不适合海量数据训练。在分层异构水平框架中,它将每个嵌入子流形投影到一个公共嵌入空间中以克服数据异构性(Gao 等人,2019)。
3.1.5. Modify local training mode
另一个想法是优化建模方式以实现单个设备的个性化,例如 MOCHA,它引入了多任务学习以利用共享表示(Smith、Chiang、Sanjabi 和 Talwalkar,2017)。 Zhao、Li、Lai、Suda、Civin 和 Chandra(2018)做了类似的工作,他们考虑了一种通过在每个本地模型之间共享一小组数据来处理非独立同分布数据的解决方案。 Huang, Yin et al (2019) 也从以往的数据共享思想中获得了很多克服非独立同分布问题的启示。他们将交叉熵损失放入传输过程中,并在每一轮中为每个客户端分配不同的本地更新时间。
(3) Structural heterogeneity.
就结构异质性而言,主要指两个方面。一方面,由于不同的设备使用不同种类的芯片,计算和存储的能力因节点而异,从而导致训练时间不平衡。另一方面,客户端的网络环境不同。不可靠和不稳定的网络可能会导致设备掉线。到目前为止,处理结构异构的方法主要集中在异构设备的资源分配和易离线设备的容错上。
3.1.6. Fault tolerance
联邦多任务学习是在谷歌对分布式数据训练的研究之后构建的(Smith 等人,2017)。为了解决掉线者(掉线或仍在使用过时的全局参数进行训练)的问题,他们考虑了在训练过程中参与度低的影响,以抵抗设备掉线。使 FL 系统对掉线参与者具有鲁棒性,学者们还设计了安全聚合协议(Hao,Li,Luo 等人,2019),只要幸存的用户足以加入联邦更新,该协议就可以容忍任意掉线。 Lib 等人 (2019) 将落后者考虑在内,并允许这些设备实现不同的本地更新计算时间。 Wu, He, Lin, and RuiMao (2019) 也充分考虑了异构网络中的设备散乱现象。他们利用缓存结构来存储那些不可靠的用户更新,从而减轻他们对全局模型的信任影响。
3.1.7. Resource allocation
出于资源限制的考虑,上述大部分工作致力于将资源适当地分配给异构设备。例如,Kang 等人 (2019) 将异构客户端的开销考虑在内,以激励更多高质量的设备参与训练过程。 Tran、Bao 和 Zomaya(2019 年)研究了受异构功率约束影响的训练精度和收敛时间。 同时,Chai、Fayyaz、Fayyaz、Anwar、Zhou、Baracaldo 和 Cheng (2019) 考虑了资源(例如 CPU、内存和网络资源)异质性对 FL 训练时间的影响。为了解决这个问题,Li, T. 等人 (2020) 设计了一个公平性指标来衡量设备的损失,并设计了一个 q-Fair 优化目标来推动 FL 中的公平资源分配。简而言之,掉线者和异质性贯穿于 FL 框架。因此,在未来,优化应该继续有助于容错和适当的资源分配来解决这个问题。
3.2. Security analysis
在本节中,我们详细阐述了 FL 中隐私攻击和增强的演进展。如图 6 所示,第一个分支表示 FL 中的间接隐私泄漏。另外两个分支显示了 FL 隐私增强的改进轨迹。一种是客户端的隐私保护方法,另一种是服务器端的隐私保护方法。这两个分支在一个节点处相交,该节点派生出另一个分支来表示增强隐私的混合方法。线的粗细也显示了这些论文的参考频率。线条越粗,论文的参考频率越高。详情如下。
3.2.1. Privacy risk
尽管在联邦训练过程中患者的私人数据永远不会从本地存储中出来,这可能会减轻隐私问题。 尽管如此,该系统还不够安全,因为梯度和部分参数的传输可能会导致间接隐私泄露(Bos、Lauter 和 Naehrig,2014)。由于原始数据存在被反演破解的风险。一些研究人员考虑在 FL 框架中检索数据。一般的攻击类型主要分为以下三类:
3.2.1.1.数据中毒攻击。
旨在嵌入一些污染数据,如恶意样本或伪装数据,以破坏数据完整性或引起训练结果的偏差。 “数据中毒”攻击模式主要有两种类型,包括模型倾斜和反馈武器化。传统的机器学习方法容易受到数据中毒的影响,因为对抗性可以直接操纵触发器来误导全局模型。然而,由于恶意攻击者无法直接访问原始数据,因此这些传统的数据投毒方法效果较差,或者在涉及 FL 时可能需要许多恶意参与者(Bagdasaryan、Veit、Hua、Estrin 和 Shmatikov,2018 年)。在 Bagdasaryan 等人 (2018) 的基础研究基础上,Yang 等人 (2019) 研究了一种新颖有效的分布式后门攻击。他们将一个攻击触发器分成许多片,并将每个片嵌入到不同的攻击者中,而不是将一个完整的触发器嵌入到一个攻击者中。这种新型模式打破了 FL 可以避免数据中毒的旧论点。它还为 FL 中的安全分析提供了一种新的评估形式。
3.2.1.2. Model poisoning (Also known as adversarial attack).
模型中毒是指通过设计特定的输入使机器学习模型产生错误的结果。此外,它还可以细分为非目标对抗攻击和目标对抗攻击。 前一种是常见的类型,导致不正确的结果,另一种相对困难,旨在为输入注入特定类型。在 FL 中,实现了安全聚合,聚合器不熟悉本地更新模式,因此无法检测异常或验证本地更新的正确性。根据这个缺点,恶意参与者可以通过模型替换方法将后门插入联邦环境,从而误解联邦模型。这种新颖的攻击方法可以成功地用于联合训练任务,包括图像分类和单词预测(Bagdasaryan 等人,2018 年)。同样,Bhagoji、Chakraborty、Mittal 和 Calo (2019) 通过少数恶意对手攻击全局模型,以错误分类目标模型。这种攻击显然属于有针对性的对抗性攻击。在这种情况下,它们确保了集成模型的收敛性和大多数任务的准确性。此外,结果表明,拜占庭弹性聚合技术在联邦环境中无法应对此类攻击。然后 Zhang、Chen、Wu、Chen 和 Yu (2019) 首次尝试基于生成对抗网络 (GAN) 生成模型中毒攻击。在这项工作中,恶意参与者伪装成良性代理人。然后他们分配一个 GAN 架构来生成训练数据,并分配一个错误的标签来诱导良性客户端被破坏。现有的方法旨在防御中毒攻击,这些方法在联邦环境中是非常无效的。在未来的工作中,为了减轻这种针对 FL 的攻击,服务器端的异常检测和分类结果的隐藏是一个很有前途的方向。
3.2.1.3. Inferring attack.
这类攻击的价值主要用于通过白盒或黑盒,检测隐私记录或恢复训练数据。它可以分解为跟踪攻击(也称为成员推理攻击)和重构攻击。两个中的第一个表示推断客户端是否包含在数据集中。后者想要恢复有关个体参与者的一些特征。利用 SGD 的漏洞,Nasr、Shokri 和 Houmansadr(2019)设计了一种直接针对神经网络的白盒成员推理攻击方法。然后它成功地应用于联邦环境,以通过好奇的服务器或任何参与者推断信息。以前的工作侧重于恶意服务器假设,并且由于客户端更新的不可见性而无法恢复特定客户端上的信息。在这种情况下,Wang, Z. et al (2019) 构建了一个名为 mGAN-AI 的通用攻击框架,可以为目标客户端重建私人信息。为了阻止这种攻击,应该探索更强大的保护方法,可以在数据上传到云端之前对其进行加密。
3.2.2. Privacy-preserving technology in FL
间接的隐私泄露给 FL 的发展带来了巨大的挑战。潜在威胁通常来自内部对手和外部对手。内部对手包括诚实但好奇的聚合器、串通方和恶意参与者在训练过程中窃取隐私。诚实但好奇的聚合器意味着服务器将遵守隐私协议,但会尝试探索有关客户端的更多信息。串通方或恶意参与者不可靠地传输不正确的更新以及从其他良性客户端学习额外信息。外部对手是指那些可以窥视中间输出的人或可以访问最终模型的用户。面对这些漏洞,现有的增强隐私保障的隐私保护方法主要集中在客户端的信息加密或服务器端的安全聚合以及FL框架的安全保护(Ma, Li, Ding, Yang, Shu, Quek, &可怜,2019)。本研究讨论了基于这种分类的新型隐私保护技术,如下所示。
3.2.2.1. Privacy-preserving at client side.
差分隐私通常作为增强客户端隐私保护的一种手段。从数据库查询数据时,通过引入噪声模糊原始数据,减少记录被识别的机会,同时尽可能提高查询精度。例如,由于 FedAvg 容易受到差分攻击的破坏,Geyer、Klein 和 Nabi(2018)利用 FL 上的差分隐私来隐藏客户是否参与了训练过程。同样,为了改进 FedAvg,McMahan、Zhang、Ramage 和 Talwar (2018) 也通过向全局模型添加高斯噪声将 DP 应用于此过程。在使用用户反馈对排序器进行联合在线训练时,Kharitonov (2019) 引入了 ε-local 差分隐私。与普通算法相反,它更严格,因为它们保护用户级别的隐私,而不是在数据聚合后强加隐私保护技术。
此外,同态加密也是FL中经常应用的一种隐私策略,用于防止客户端之间参数交换过程中的信息泄露。同态加密是指在加法或乘法运算之前先对参数进行编码,并与未编码函数进行等效结果比较的一种加密机制。 Liu 等人 (2018) 采用加法同态加密来修改神经网络模型并最大限度地减少对训练准确性的影响。 Ilias 和 Georgios (2019) 还将同态加密添加到更健壮的 FL 框架中,这使得在加密客户端上计算聚合成为可能。训练这些加密模型可能会增加额外的通信开销,因为应该传送更多的数据,例如私钥。
Locality-sensitive hashing (LSH) 也是一种普遍的加密方式 (Gionis, Indyk, & Motwani, 1999)。所有特征都将通过 p-stable 哈希函数映射到加密形式。这种加密方式的主要优点是经过哈希表示后两个样本之间的相似性会得到保留。然而,两个不同的样本几乎不可能持有相似的哈希值。不会暴露原始数据,因为许多样本可能具有相同的输出。此外,LSH 不会像同态加密那样造成过多的通信开销,也不会像差分隐私那样降低准确性。Lee 等人 (2018) 利用 LSH 检测联邦环境中的相似患者。最近,Li et al (2020) 建立了一个实用的依赖于 LSH 的梯度提升决策树。在预处理阶段,LSH 会帮助找到分布在不同客户端的相似样本,它们在处理梯度更新时会使用相似实例的梯度和,而不是只使用一个实例的梯度。
3.2.2.2. Secure aggregation.
采用安全多方计算(SMC),主要集中在如何在没有可靠第三方的情况下为各种客户端安全地计算函数。博纳维茨等人(2017) 提出了第一个利用安全多方计算的安全聚合协议。在此协议中,每个设备的型号更新信息不向中央服务器透露。只有在足够多的设备更新它们的模型后,服务器才能接收聚合模型。由于二次通信成本,上述协议不适用于更大规模的情况。通过这种方式,Hao, Li, Luo et al (2019) 为 FL 设想了一种更有效的隐私保护方案,该方案集成了差分隐私和轻量级同态加密技术。该协议主要用于随机梯度下降法,对好奇但诚实的服务器和云与服务器之间的串通具有鲁棒性。有时,云返回的全局模型可能不可靠或不完整。因为不可靠的云服务器可能会恶意返回一个完全错误的模型,或者可能由于计算压力而懒惰地传送一个压缩但不准确的模型。此后,Xu、Li、Liu、Yang 和 Lin (2020) 设计了VerifyNet,这是第一个可以验证从云端返回的模型的正确性的协议。为了隐私保证,他们实施了秘密共享的变体,结合密钥协商协议来增强梯度的机密性。 Chen 等人 (2020) 提出的最新方法也集中在安全聚合方案上。他们向每个客户端添加一个额外的公共参数调度,以强制他们以相同的方式进行训练,从而在进行聚合阶段时轻松检测恶意客户端。
3.2.2.3. Protection method for FL framework
虽然上述算法可以避免攻击者侵入中心服务器或客户端,但加密参数仍然可能通过 3.2.1 所述的新型攻击方法造成信息泄露。为了增强框架的隐私性,已经提出了许多混合方法。然而,引入的差分隐私噪声可能会导致准确性下降。为了降低噪声,Hybrid-One 方案将 DP 与 MPC 的使用结合起来而不影响准确率,从而保护依赖 MPC 的通信消息,从而引入比传统本地 DP 更少的噪声(Truex 等人,2019)。但是这种方法通常会导致难以承受的通信成本和较长的收敛时间,因为同态加密可能会如此。然后高效的 HybridAlpha 应运而生,它将功能加密与 SMC 协议相结合,实现了不牺牲隐私的高性能模型(Xu, Baracaldo, Zhou, Anwar, & Ludwig, 2019)。此外,sketched算法本质上适用于 FL,因为不存储数据身份,并且需要额外的机制来追溯原始数据。受此启发,Liu、Li、Smith 和 Sekar (2019) 建立了FL 和sketched算法之间的关系以加强机密性。
4. Application
FL作为一个没有法律问题的协作模型构建的主流方案。即使面临上述局限性和严峻挑战,早期参与者也看到了FL的重要机遇,并展开了一系列相关探索和尝试,将FL应用到现实生活中。在本节中,我们将讨论与工业工程或计算机科学相关的几个应用。
4.1. Application for mobile devices
自谷歌首次提出预测用户在 Android 设备上通过 Gboard 输入的概念以来,FL 一直受到研究人员的关注。Chen、Mathews、Ouyang 和 Beaufays (2019)、Leroy、Coucke、Lavril、Gisselbrecht 和 Dureau (2019)、Hard、Rao、Mathews、Ramaswamy、Beaufays、Augenstein 、 Ramage 和 Yang 等人 (2018),对键盘预测进行了进一步改进。此外,表情符号预测也是一个研究热点(Ramaswamy et al, 2019)。此外,将 FL 模型带入智能设备以预测人类轨迹 (Feng, Rong, Sun, Guo, & Li, 2020) 或人类行为 (Sozinov, Vlassov, & Girdzijauskas, 2018) 也是一个潜在的应用。
如今,尽管移动设备的存储容量和计算能力都在快速增长。由于通信带宽的限制,难以满足移动用户日益增长的质量需求。因此,大多数综合提供商更愿意在靠近客户的蜂窝网络边缘提供服务环境,而不是在核心网络中集成云计算和云存储,以减少网络拥塞。这项技术被称为移动边缘计算 (MEC),但它也面临着越来越大的信息泄露风险。一种可能的解决方案是 FL 和 MEC 的结合,Wang, X. et al (2019) 研究了一种“In-Edge AI”框架,该框架将基于深度强化学习的 FL 与 MEC 系统结合起来,进一步优化资源分配问题。此外,Qian 等人 (2019) 致力于在 MEC 上使用 FL。他们开发了一种隐私感知服务放置方案,通过在靠近用户的边缘服务器上缓存所需的服务来提供高质量的服务。
在这种情况下,移动设备不仅指常见的智能手机,还指代物联网环境中的设备。智能家居是物联网的重要应用领域之一。为了更好地了解用户的偏好,智能家居架构中的设备会将一些相关数据上传到云服务器,这可能会导致数据泄露。因此,Aïvodji、Gambs 和 Martin (2019) 提出了一个足够安全的联邦架构来构建联合模型。同样,Yu 等人 (2020) 为智能家居物联网构建了一个联邦多任务学习框架,可以自动学习用户的行为模式,从而有效地检测物理危险。此外,Liu、Wang、Liu 和 Xu (2020) 提出了一种基于 FL 的数据融合方法,用于机器人网络中的机器人模仿学习。这种方法可用于自动驾驶汽车,以生成引导模型并预见各种紧急情况。
4.2. Application in industrial engineering
在 FL 在数据隐私保护方面取得成就的推动下,工业工程顺应 FL 的应用是顺理成章的。由于法律法规的某些限制,无法直接获得这些领域的数据。然而,只有将 FL 应用于这些领域,我们才能利用这些分散的数据集获得无限的收益。
据我们所知,随着FL的兴起和成熟,它在工业工程的数据敏感领域具有广泛的推广和应用前景。以环境保护为例,Hu, Gao, Liu, and Ma (2018) 针对监测数据互换不便的问题,设计了一种基于联邦区域学习(FRL)的新型环境监测框架。因此,可以利用从各种传感器分布的监控数据来提高协作模型的性能。 FL 也适用于视觉检查任务(Han、Yu 和 Gu,2019)。它不仅可以帮助我们解决生产任务中缺乏缺陷样品来检测缺陷的问题,还可以为制造商提供隐私保障。在图像领域,视觉和语言也是一个爆发点,Liu、Wu、Ge、Fan 和 Zou (2020) 将 FL 用于从联合任务中获取多样化的表示,以获得更好的基础应用。除了图像检测和表示之外,FL 还适用于由无人机 (UAV) 组成的通信系统中的恶意攻击检测 (Mowla, Tran, Doh, & Chae, 2020)。由于无人机的数据分布不平衡和通信条件不可靠等特点与FL中的挑战非常匹配。随着电动汽车的普及,Saputra 等人(2019) 为各种充电站设计了一种联合能源需求预测方法,以防止传输过程中的能源拥塞。此外,Yang、Zhang、Ye、Li 和 Xu (2019) 将 FL 应用于不同银行拥有的交易,以有效检测信用卡欺诈,这也是对金融领域的重大贡献。对于文本挖掘,Wang、Tong 和 Shi (2020) 利用基于 Latent Dirichlet Allocation 的工业级联邦框架。它已经通过了垃圾邮件过滤和情感分析的真实数据评估。
总而言之,FL 使数据所有者能够通过不同实体之间的迭代来扩大数据应用的范围并提高模型性能。未来,FL技术还将支持更多行业走向智能化。在 AI 中加入 FL 将构建一个没有数据隐私问题的联邦生态系统。
4.3. Application in HealthCare
作为一种保护数据隐私的创新型方法,FL在医疗保健领域具有广阔的前景。每个医疗机构都可能拥有大量患者数据,但这可能远远不足以训练他们自己的预测模型(Szegedi、Kiss 和 Horv´ath,2019 年)。 FL和疾病预测的结合是打破不同医院分析障碍的良好解决方案之一。
电子健康记录 (EMR) 包含许多有意义的临床概念,Kim、Sun、Yu 和 Jiang(2017)尝试使用张量分解模型进行表型分析,以获取隐藏在健康记录中的信息,而无需共享患者级别的数据。这可以看作是FL在医疗行业应用的首次尝试。Pfohl、Dai 和 Heller(2019 年)探索了联邦环境中 EMR 的差异隐私学习。他们进一步证明了性能可与集中环境的训练相媲美。 Huang, Shea 等人 (2019) 利用分散在医院各处的 EMR 来预测心脏病患者的死亡率。在训练过程中,医院数据库之间没有任何形式的数据或参数传输。除此之外,从多个远程客户端整合到中央服务器的数据是预先编码的,解码器将在训练结束时被丢弃。此外,Brisimi 等人 (2018) 还使用 EMR 来评估心脏病患者是否会住院,这是基于一种称为聚类原始双分裂 (cPDS) 的 FL 算法。这种预测工作既可以在健康监测设备上完成,也可以在持有这些医疗数据的医院上完成,而不会泄露信息。利用健康记录,Lee 等人 (2018) 提出了一种联合患者哈希框架来检测分散在不同医院的相似患者,而无需共享患者级别的信息。这种患者匹配方法可以帮助医生总结一般特征并指导他们治疗有更多经验的患者。此外,Huang, Yin 等人 (2019) 利用 Loss-based adaptive boosting Federated Averaging 算法对从 MIMIC-III 数据库中提取的药物使用情况进行预测,以预测患者死亡率。这项研究涉及每个客户端的计算复杂性和通信成本以及准确性,因此优于基线。
研究还表明,FL 可以应用于自然语言处理 (NLP)领域用于分析健康记录中的有效信息。 Liu、Dligach 和 Miller (2019) 关注临床记录的非结构化数据处理需求。这是基于 FL 的 NLP 的第一次尝试。他们执行了一个两阶段联合训练模型,其中包含预处理阶段以预测每个患者的表示模型和表型训练阶段以研究每种疾病。
最近,FL 也广泛应用于生物医学成像分析领域。 Silva、Gutman、Romero、Thompson、Altmann 和 Lorenzi (2019) 提出了联合主成分分析 (fPCA),用于从来自不同医疗中心的磁共振图像 (MRI) 中提取特征。此外,Gao 等人 (2019) 提出了一种用于脑电图 (EEG) 分类的分层异构水平 FL (HHHFL) 框架,以克服有限标记实例和隐私约束的挑战。
据我们所知,随着FL的兴起和成熟,除上述领域外,它在数据敏感领域也有非常广泛的推广和应用前景。表 1 显示 FL 的应用在 2019 年有了突飞猛进的增长。因此,看好 FL 在未来的发展中具有巨大的潜力。目前FL主要用于落地应用的横向协同训练,即各数据的特征维度相似。未来,医院的医疗数据可以与保险代理等其他机构合作,获得合理的定价。因此,纵向联邦学习是一个有前途的探索方向。此外,一个问题是现有的联邦培训主要基于小规模的组织,无法扩展到针对大量设备或机构的协作培训。因此,应该以有效的方式对基于 FL 的移动设备数据进行分析,以生成更有意义的信息。
5. Frontier achievements and future work
FL在工业工程和医疗保健领域的落地应用具有巨大的可持续发展潜力。诚然,许多学者为应对第3节中提到的挑战付出了艰苦的努力。为了满足物联网快速发展和隐私问题日益严重的情况,它对联邦系统设计提出了严格的要求。 FL 仍有几个研究前沿有待探索。目前的主要趋势是致力于安全合规建设、攻击防御和效率提升以及异构处理。在本节中,我们将重点关注一些显著的前沿成果,以解决仍然存在的问题,以便在实际制造应用中更好地实施 FL。此外,我们还简要介绍了一些有前途的方向,以引领该领域的未来改进。
5.1. Asynchronous training mode
全局模型训练模式的一个基本选择是采用异步方法还是同步方法。最近,同步训练已经成为 FL 的主要形式,因为与异步方式相比,SGD 在中央服务器环境中的性能更优越(Chen, Ning et al, 2019; Mohammad & Sorour, 2019)。 之前的 FL 优化主要集中在 FedAvg 的同步方法进展上。然而,这种方法依赖于强假设,在实践中是不现实的。不同计算能力和不同网络设置的异构资源以及不平衡的数据分布将导致不同的训练时间和未知的通信成本。基于之前关于异步梯度下降的工作,Sprague、Jalalirad、Scavuzzo、Capota、Neun、Do 和 Kopp(2019)将异步聚合方案与 FedAvg 进行了比较,获得了基本满意的结果。 FL中大量的异步训练模式是指异步本地更新或异步聚合。在客户端,Chen、Sun 等人 (2019) 设计了一种用于客户端模型更新的异步方法。深度神经网络中的层分为更新频率不同的深层和浅层。在服务器端,可以实现异步聚合。例如,Chen、Ning 等人 (2019)、Chen、Sun 等人提出的异步在线 FL 框架 (2019) 通过引入特征学习和动态学习步长以异步方式更新中心模型。考虑到同步更新和异步训练优势之间的权衡,Wu 等人 (2019) 提出了一种半异步协议,允许分布的客户端并不总是与中央服务器一起。主要思想是让落后者适当地加入训练,利用他们缓慢更新的模型来加快训练过程。从这种半异步方法中得到很多启发,异步模式和同步方案的结合是一个很有前途的方向。通过这种方式,我们能否减少不必要的开销,并为落后者提供很少的容错。
5.2. Gradient aggregation
通常,在梯度聚合阶段,全局模型的梯度是每个客户端产生的加权梯度之和。每个客户的权重由样本比例决定。然而,由于本地客户端的估计偏差,没有证据表明这种从本地客户端获取的加权平均梯度等同于真实的全局梯度信息。 Xiao、Cheng、Stankovic 和 Vukobratovic (2020) 检测到相互信息增加,这意味着客户端之间的相关性,而参数的距离随着迭代的增加而变大。这项研究表明梯度平均可能不是梯度聚合的好方法。为了消除局部训练阶段的梯度偏差,Yao、Huang、Zhang、Li 和 Sun (2019) 在每个局部训练阶段跟踪调度的全局参数。由于局部梯度更新是全局参数的函数,因此可以无偏地聚合梯度。为了更好地学习 FL 中的聚合模式,Ji、Chen、Wang、Yu 和 Li (2019) 引入了循环神经网络聚合器,以自动获得梯度聚合的优化方式。此外,Wang, X. 等(2019) 设计了一种分层聚合模式,可以在神经网络中为全局模型连续生成层参数。考虑到客户端的非独立同分布,简单平均方式的梯度聚合不是一个好的选择。如果研究人员可以为每个客户端引入一些自适应权重或一些机器学习方法来学习如何以有效的方式聚合这些梯度,那就更好了。
5.3. Incentive mechanism
对于性能的提升,除了优化资源分配或新颖的架构设计外,建立激励机制来鼓励更多的参与方加入训练也是一种有效的方式。最初的 FedAvg 会随机选择客户。似乎所有客户都同样有可能参加培训。事实上,一些高质量的懒惰客户或一些怕耗电的自私客户可能有一定的概率不会参加整个培训过程。可以建立激励机制来激励此类客户。云服务器会根据每个参与者的贡献分配奖励。客户将最大化他们的效用以获得更多收入。这样,将制定良性循环效应以获得满意的模型。基于 Stackelberg 的博弈论等框架在激励机制设计中广受欢迎。 Sarikaya 和 Ercetin (2019) 从 Stackelberg 的角度探索创新机制,以激励工人为本地培训分配更多的 CPU。 Khan、Tran、Pandey、Saad、Han、Nguyen 和 Hong(2019 年)讨论了基于 Stackelberg 的激励机制,以自适应地设置局部迭代时间以尽可能有效。众包框架采用两阶段 Stackelberg 模型来实现客户端和服务器之间的效用最大化(Pandey、Tran、Bennis、Tun、Manzoor 和 Hong,2019)。对于未来的工作,可以引入如匹配理论和拍卖理论等更多的框架,应对参与者数量和更新延迟之间的权衡。
5.4. Verification for returned model
FL 中的大多数隐私保护方法都依赖于一个强有力的假设,即客户是半诚实的,他们遵守训练规则,但对私人数据的获取保持好奇。然而,实际的应用是另一种。客户端可能有意或无意地传输错误模型,迫使全局模型偏离正常轨迹。例如,在可穿戴医疗系统中,对手可能会生成看似合理但不准确的数据来攻击整个模型(Cai & Venkatasubramanian,2018)。这种拜占庭问题在FL中总是会遇到。因此,应该开发拜占庭容错系统,这意味着即使某些客户端不遵循训练协议或恶意攻击全局模型,协同训练仍然可以正常工作。
为了检测这种异常的模型更新,Li、Sahu、Zaheer、Sanjabi、Talwalkar 和 Smith (2019) 考虑使用自动编码器使模型参数能够被低维向量替换并发现不规则的权重更新。 Mu∼noz-Gonz´alez, Co 和 Lupu (2019) 讨论了自适应 FL 以通过隐马尔可夫模型抓取异常更新来评估模型质量。传统的拜占庭容错系统是由一些防御机制支持的,而不是恶意客户端检测。考虑到联邦设置的准确性损失,最好设计更多基于故障检测的拜占庭容错系统来消除或减少威胁。
5.5. FL with block-chain technology
区块链作为一项新兴技术,在国外发展迅速。简而言之,区块链本质上是一种分布式账本,源于比特币(Nakamoto, 2008),具有去中心化、不可篡改、可追溯、集体维护、公开透明等特点。已经提出了几种用于工业数据共享的区块链辅助方案,包括 3D 打印物品的质量监控(Kennedy 等人,2017 年)、智能电网的消耗监控和隐私保护能源交易(Aitzhan 和 Svetinovic,2018 年)以及紧急医疗院前护理服务(Hasavari & Song,2019)。现有基于区块链的研究主要集中在创新医疗信息共享系统,但尚未实现协同训练以最大限度地利用数据。最近的研究证明,区块链有可能显著改变 FL 中的一些问题。区块链和FL是相辅相成的。区块链作为一种天生安全的分布式系统,自然适合用 FL 开发。由于区块链框架对恶意节点具有容忍性,只要恶意节点不超过总数的51%就可以正常工作。
将区块链技术与FL相结合,Majeed 和 Hong(2019)设想了一个强大的 FL链,可以验证本地模型更新。虽然通过区块链技术可以保证整个架构的安全性,但这种安全性与隐私保护无关。对单个节点没有隐私问题。如果有恶意诊所或医院加入协同训练,可能会不遗余力地窥探其他参与者的隐私信息。
因此,Ilias 和 Georgios(2019)利用区块链智能协议来协调所有客户端,并使用同态加密来提供额外的隐私保证。由 Awan、Li、Luo 和 Liu(2019)设计的基于区块链的隐私保护 FL 框架还添加了 Paillier 密码系统的变体作为防止隐私泄露的额外措施。此外,利用区块链,可以追踪各方对优化全局模型的贡献,这使得激励机制成为可能。上述基于区块链的FL框架并未对客户加入培训给出具体的奖励机制。为了提高 FL 的性能,提出了一种动态加权方法(Kim & Hong,2019)。将学习准确率和参与频率作为训练权重来激励优质客户参与训练。此外,Kim、Park、Bennis 和 Kim(2019)提出的 Block-Fl 奖励客户持有的样本数量以减少收敛时间。总而言之,将区块链与 FL 相结合是一件好事,因为它是一种去中心化技术,因此不再需要中央服务器来预测全局模型。因此,它可以克服 FL 中带宽的限制。此外,它不仅可以在验证正确性的同时交换更新以增强安全性,还可以采用一些激励机制来改进 FL 服务。但是在交换学习模型时引入区块链可能会导致更多的延迟。最好设计一个基于区块链的低延迟 FL。
5.6. Federated training for unsupervised machine learning
根据对 FL 研究的分析,现有的 FL 框架是基于监督学习方法构建的。例如,FL 已在神经网络中得到有效利用(Wang, S. et al, 2019; Hao, Li, Xu, Liu, & Yang, 2019; Bonawitz, Eichner, Grieskamp, Huba, Ingerman, Ivanov, & Roselander, 2019 ) 和 SVM (Liu et al, 2019),以及线性分类器 (Hardy et al, 2017)。
实际上,在标记数据不存在或几乎不存在的大多数情况下,应该应用无监督学习方法。因此,无监督学习可以合理地用于推断这些混乱数据中的潜在信息。例如,它已广泛用于图像识别(Dalca、Balakrishnan、Guttag 和 Sabuncu,2019;de Vos 等人,2019)和图像分类(Ahn、Kumar、Feng、Fulham 和 Kim,2019)。尽管研究人员在处理标签少的分布式数据的联邦迁移学习方面取得了很大进展,但落地应用仍然是联邦框架中无监督学习的瓶颈。为了应对标签数量有限的挑战,在无监督区域采用了协作训练。这种方法,如协作和对抗网络 (CAN),一种新颖的无监督域适应方法,显示出有效性和高性能 (Zhang, Ouyang, Li, & Xu, 2018)。因此,作为一种协作训练方法,FL 在无监督学习领域具有巨大的潜力。最近,van Berlo、Saeed 和 Ozcelebi (2020) 介绍了联邦无监督表示学习,这是无监督 FL 的突破。通过预训练阶段的无监督表示学习,标记数据的要求显著降低。与监督学习和迁移学习相比,这项研究还显示了有竞争力的表现。因此,它激发了未来的工作,以扩展无监督学习的联邦框架。
6. Conclusion
本研究有助于总结 FL 在工业工程和计算机科学中的应用,并总结 FL 的综述,但不仅限于应用。据我们所知,这项工作是第一次总结 FL 在工业领域的发展前景。
在大量的文献中,我们已经总结了 FL 的特征并仍然存在挑战。此外,我们给出了优化轨迹的主要路径,以阐明研究人员为优化 FL 所做的各种解决方案,主要包括隐私问题和算法效率。此外,我们还总结了联邦设置中的一些应用和一些具有巨大潜力的开发领域。作为一项新兴技术,FL 近来吸引了越来越多的关注。这项工作有利于研究人员克服 FL 仍然存在的挑战。
CRediT 作者贡献声明 Li Li: 概念化,方法,软件,监督。 Yuxi Fan:数据整理,写作 - 原稿。 Mike Tse:可视化,资源。 Kuo-Yi Lin:项目管理、概念化、验证、写作 - 审查和编辑。
致谢 本研究得到中国国家重点研发计划编号 YFE0105000、2018YFB1305304、上海市科学技术委员会编号 19511132100 和国家自然科学基金资助编号 51475334 的支持。