关于训练有素的机器学习模型中发生数据泄漏的论述

789 阅读6分钟

深度学习模型可以被输入各种数据--个人的、敏感的等等。根据GDPR的定义,个人数据涉及到一个已识别或可识别的自然人。相反,敏感数据是揭示种族或民族血统的个人数据,仅用于识别人类的生物识别数据;与健康有关的数据;遗传数据,或有关个人性别的数据。根据尚未通过的《印度个人数据保护法》(PDPA),"遗传数据 "是与自然人的遗传或获得的遗传特征有关的个人数据。这种数据包括有关该自然人的行为特征、生理学或健康以及其他生物方面的独特信息。这些定义的特殊性和对严格遵守的要求,使得人工智能研究人员开发不在野外泄露敏感数据的模型和方法成为挑战。

这些数据需要更强大的数据处理、存储和传输保障措施。这里的目标是减轻泄露任何敏感的个人数据的风险,这些数据可以追溯到一个真实的个人身份。据爱丁堡大学的研究人员称,现实世界中的身份链接风险很复杂。它取决于数据点的频率、源数据集的大小、支持一般再识别策略的公共数据集的可用性,以及更容易识别特定个人的公共领域信息。

数据泄露的类型

(来源:Jegorova等人的论文)

在Jegorova等人的工作中,作者调查了ML领域的数据泄露的潜在途径。

1|基于数据的类型

文本数据

这种数据包括个人的姓名(用户、客户、病人、安全人员等)、出生日期、邮政编码、电话号码、唯一的ID等。在对此类数据进行ML模型训练的情况下,特定的敏感数据条目、特征或完整的数据记录在部署时发生泄漏是可能的。

图像数据中的泄密

鉴于生成模型的改进,图像中的数据泄漏可能会产生灾难性的结果。想想看,模型中的一个错误让黑客把你从你的iPhone甚至是你使用智能锁的房子中锁出来。数据泄露包括人脸或其他识别特征。作者写道,当用这种敏感的图像数据训练ML模型时,生成模型可以根据可重新识别的骨骼/假牙植入物和其他个人特有的特征,设计出一个貌似的人。

表格式数据的泄漏

调查指出,在表格数据中,数据集被限制在预定义的变量和值上。这就增加了根据以下因素更准确地识别一个人的风险

  • 统计披露的风险。
  • 管理特点,如表格式数据的敏感性。
  • 地理和人口规模。
  • 零值条目,以及
  • 小群体与特定临床提供者的联系。

2| 基于任务的类型

回归

在金融预测、营销趋势和天气预测等领域,回归技术被广泛实施,以前的许多工作都谈到了不同种类数据的模型级泄漏,包括金融和医疗时间序列、数字表格数据和混合特征表格数据。

分类

根据作者的说法,图像分类是在泄漏和隐私攻击方面研究得最多的任务。研究人员已经证明,通过使用成员推理攻击(MIAs)、属性推理攻击和模型提取,数据样本可能从像类标签一样少的信息中重建。然而,在一个分类中,对表格数据的应用探索得最少,当涉及到时间序列问题中的分类器时,就更少了。

生成

在过去的几年里,生成模型对人工智能的炒作做出了重大贡献。算法能够生成被拍卖到数百万美元的绘画。但是,与此同时,这些模型以深度造假的形式解开了一个精灵,它可以愚弄普通观众,并容纳一个具有灾难性的错误信息核。一个训练有素的生成对抗网络(GAN)可以捕捉到真实数据的基本分布,这就解释了深度造假的有效性!这也是为什么我们的研究人员会选择深度造假。但是,根据作者的说法,即使对这些模型进行抽样,也会泄露训练集中个人的敏感信息。

3| 杂项

当模型赋予某些样本的可能性明显高于随机机会的预期时,就会发生对特定训练数据样本的记忆。然而,当涉及到深度学习或深度强化学习时,某种程度的记忆总是值得赞赏的,而且可能是不可避免的。这使得它更具挑战性,因为特征和错误之间的界限很细微。作者警告说,记忆会导致对公开分享训练有素的ML模型或将其作为服务提供的严重隐私和法律问题。

特征泄漏的特点是泄漏数据的敏感特征。特征泄漏隐含地使属性推理攻击成为可能,这对协作学习模型是一种威胁。

上述的泄漏被成员推理攻击、属性推理攻击、模型反转攻击和模型提取攻击所利用。这些攻击是最流行的,并且正在被积极研究。根据调查,这些攻击可以通过以下防御机制来挫败。

例如,数据模糊化 是一种通过扰乱或掩盖来扰乱敏感信息的方法。在这种方法中,噪声被故意添加到数据中。它模拟了用户隐私和服务质量之间的权衡,受数据扰乱的严重程度影响。

其中,数据消毒用看起来很真实的合成数据覆盖数据内的敏感信息,使用翻转标签等技术。这些防御措施使研究人员能够预测模型在受到攻击时的行为方式。

也就是说,在从事繁重工作的ML系统中,采用暴力防御是不可取的。这因用例而异。例如,在医疗保健设置中的数据泄漏比存储喜爱的电影的推荐系统更可怕。而且,正如我们前面所讨论的,像记忆这样的bug有时也可以成为伟大的功能。此外,大多数流行的防御措施都是针对具体案例的,而且它们还没有受到大规模的挑战。由于设备上的联合学习和其他此类技术,保护隐私的ML应用已经是一件事。但是,随着每一个新的ML模型范式的出现,一个新的挑战也随之而来。生成式模型在创造问题方面胜过了分类模型。当人们为记忆问题想出办法的时候,一个 "灾难性遗忘 "的问题被发现。随着政府通过GDPR、PDPA和它们的等价物收紧规则,对数据泄露及其防御的研究从未如此关键。

The postA Treatise On Data Leakages In Trained Machine Learning Modelsappeared first onAnalytics India Magazine.