FedRecovery: Differentially Private Machine Unlearning for Federated Learning Frameworks (联邦学习框架下基于差分隐私的机器遗忘 )
FedRecovery通过从全局模型中去除梯度残差的加权和来消除客户端的影响,并对高斯噪声进行调整,使未学习的模型和重新训练的模型在统计上无法区分。此外,该算法既不需要基于再训练的微调,也不需要凸性的假设。理论分析表明了严格的不可区分性保证。
- 背景:最近的立法要求,应根据某些删除请求,从数据库和机器学习模型中删除用户的私人信息。虽然从内存中擦除数据记录很简单,但从已经训练过的模型中消除特定数据样本的影响往往是一项挑战。机器遗忘是一种新兴的范式,旨在让机器学习模型“忘记”他们对特定数据的了解。然而,由于其特殊的工作模式,联合学习的遗忘问题尚未得到完全解决。 现有的解决方案主要依赖于基于再培训的模型校准,这可能不可用,并可能给联合学习框架带来新的隐私风险。其次,今天的有效遗忘策略主要是针对凸问题设计的,凸问题无法处理更复杂的学习任务,如神经网络。
- 它源于个人对数据保护日益迫切的要求,是机器学习研究的核心之一[1],[2]。机器遗忘旨在对经过训练的模型进行后处理,以消除特定训练样本的影响,使输出模型“看起来好像以前从未见过未学习的数据”。事实上,机器遗忘的发展不仅受到隐私和安全问题的推动,还受到立法的推动。例如,欧盟的《通用数据保护条例》(GDPR)[3]和之前的被遗忘权[4]规定,在某些情况下,人们有权撤回对其数据处理操作的同意。类似的声明可以在加拿大的《消费者隐私保护法》(CPPA)[5]和加利福尼亚的《消费者保密法》(CCPA)[6]中找到,它们规定公司和组织有义务根据要求从经过培训的模型中删除个人信息。
- FL:联邦学习[7]是一种很有前途的分布式机器学习范式,它提供了保护隐私的学习解决方案。联合学习的核心思想是在分布在不同设备或各方的独立数据集上训练机器学习模型。在训练过程中,只有模型的参数或梯度被共享,每个客户端的数据对其他方来说是不可见的。因此,可以在不披露客户原始数据的情况下训练模型,从而保护他们的数据隐私[8]。
- FL unlearning:机器遗忘在解决联合学习中的隐私和安全问题方面发挥着重要作用。从理论上讲,将个体从模型中遗忘是防止模型反转攻击[9]和隶属关系推理攻击[10]造成信息泄露的理想方法。此外,遗忘技术也有助于消除恶意客户端进行的数据中毒攻击[11]的影响。出于同样的原因,如果先前的训练数据过时或质量低,则可以使用机器遗忘来更新模型[12]。直观地说,从模型中消除个人影响的一种天真方法是在剩余数据上从头开始重新训练模型。然而,从头开始的重新训练会导致高昂的计算成本[13]。更糟糕的是,在联合学习中,甚至不可能进行再培训。
模型反转攻击(Model Inversion Attack):是指攻击者试图通过对模型的输入和输出进行一些反向推理,以恢复出模型的设计概念和内部参数。例如,当攻击者知道了一个音乐推荐模型的输出结果之后,他们可以推断出该模型的训练数据集中的某些歌曲或艺术家。
隶属关系推理攻击(Membership Inference Attack):是指攻击者试图通过观察模型的预测结果,推断出一个特定的输入数据是否曾经被用于训练模型。例如,当攻击者对一个垃圾邮件过滤模型进行攻击时,他们希望能通过向该模型发送一些测试邮件,以判断这些测试邮件是否曾经被用于训练模型。
- 挑战:
-
- 联合学习中的客户端是不断变化的。服务器几乎无法调用以前的客户端来执行忘记操作,更不用说从头开始重新训练了。
- 服务器无法访问未学习的数据样本。因此,现有的由遗忘数据参数化的集中式遗忘算法[14]、[15] 在联合学习中不起作用。
- 服务器和客户端之间的通信开销是有限的。因此,像L-BFGS[18]一样,从二阶优化中导出的遗忘算法[16]、[17]不再有效。
研究现状
- 在联邦学习中,在训练过程中,客户端的前一次更新对随后的模型更新有着隐含且不断增加的影响,这被称为增量效应[19]。因此,遗忘算法必须在对其他客户端的贡献损害最小的情况下,将未学习客户端与全局模型的依赖性分开[20]。为了解决这个问题,现有的工作[12]、[21]、[22]大致消除了与未学习客户有关的梯度或模型权重,关键是依靠后处理的微调来修复未学习操作造成的损害。
- 局限性:微调过程实际上是不切实际和非法的。首先,微调也会导致相当大的计算和通信成本。其次,由于服务器的计算能力有限,分发模型进行微调可能会给未学习的客户端带来新的隐私和安全风险,这是前面提到的立法严格禁止的。
FedRecovery(差分私有机器遗忘算法)
FedRecovery,它利用客户端的历史提交来复制一个与要遗忘的客户端几乎无关的模型。FedRecovery通过引入梯度残差的概念对增量效应进行了数学量化。它通过从全局模型中去除梯度残差的加权和来消除未学习客户的影响,其中权重是根据客户对减少全局损失的实际贡献来评估的。为了提供严格的遗忘保证,我们采用了近似统计不可区分性的概念来限制未学习模型和不可用的再训练模型之间的差异。具体来说,我们首先推导了未学习模型和重新训练模型之间距离的上限,然后利用高斯机制在参数空间中掩盖这一差距。
高斯噪声:符合高斯分布(也称正态分布)的随机噪声,是一种常见的噪声形式。在数字信号处理、通信系统、图像处理等领域中,由于噪声的存在,会给信号的处理和识别带来干扰和误差,被广泛应用于模拟实验和模拟仿真中。
- 原理:
- 算法:基于梯度流和差分隐私建立了遗忘算法MU,采用高斯机制来实现不可区分性。
- 算法:完全遗忘算法。
-
- 输入:客户端的遗忘请求、现有的训练模型wt和训练过程中产生的梯度。
- 用高斯噪声掩盖未学习参数和重新训练参数之间的差距 。