本文作者:万向区块链通用架构技术部 孙宗臣
如今,搜索查询记录、浏览历史记录、购买记录、视频播放记录、出行计划等日常生活中的大量数据被收集并存储下来。也许发生在自己的移动终端、笔记本等智能设备,也许发生其他人(或机构)的监控设备中。这些数据往往携带大量的个人隐私信息,被广泛地应用在机器学习场景中,如生物特征识别、内容推荐、目标检测等。
然而,为了便于提取特征和模型训练,这些数据往往以明文的方式被上传到一些中心化平台。这样,不仅会向这些平台运营商泄漏个人隐私,同时中心化平台容易遭受网络攻击,导致数据泄漏等事件发生。尽管现在有数据匿名化等技术,但也存在着一些提取技术手段甚至是训练好的模型,让隐私数据仍然有被泄漏的风险。
本文分析了在机器学习应用中,收集数据或者构建模型时可能存在的潜在威胁;进一步分析了一些企业和研究机构提出的隐私保护技术。期望通过本文的相关分析,帮助机器学习和隐私保护(或密码学)两个专业领域方向的科研人员,进一步了解当前机器学习面临的隐私问题、解决方案以及目前存在的一些挑战。 ** 一、传统机器学习威胁**
机器学习算法的目的是让程序通过归纳数据完成准确性预测等特定任务或者找出数据中的特定结构。这些算法的输入往往是一些样本集合,每个样本可能带有成千上万的特征。例如,一个600x600像素的图片,每个像素可以用一个数字(0-255灰度值)代替。将这些像素值转换成一个长度为36w的特征向量,每一个图片都可以被表示成一个特征向量。如果再将这个图片进行标注(也称为打标签,如动物还是人),然后程序可以通过打好标签的数据集完成模型训练。训练完成的模型,可以用一个未打标签的图片进行模型预测。
通常,机器学习任务中,各种日常数据通过终端侧完成收集,然后通过服务侧完成特征提取、模型构建以及结果预测等流程。安全威胁主要包括以下场景:
- 将原始数据从终端设备传输到服务方远程服务器的过程中以及存储过程中,可能面临内部和外部的双重攻击风险。如,内部人员可直接获取数据等。
- 数据通过本地终端完成特征提取后,特征传输并存储在服务方的远程服务器中。然而,特征通过以下背景知识等方式重构出原始数据。
- 模型本身未携带一些明确的特征向量,然而攻击者通过不断尝试模型的反馈构造一些特征向量,进一步可重构出原始数据。
- 通过对机器学习模型进行攻击可推断目标数据是否为训练数据集的成员,也称为成员推理攻击。
- 尽管可采用去标识化技术发布一些匿名数据集,仍然通过一些背景知识,去推断一些个人特定偏好等。
二、隐私保护机器学习(Privacy-Preserving Machine Learning ,PPML)
隐私机器学习(以下简称,PPML)是隐私计算的一类特定的计算场景,主要聚焦在通过多方数据联合训练模型,而不是直接暴露原始的隐私数据。主要基于密码学或者差分隐私(数据扰动)等技术来实现。差分隐私是一种非常有效抵抗成员推理攻击的方式。另外,上节提到的一些模型逆向、成员推理等威胁,均可以通过限制模型输出等方式,减少攻击风险。
2.1 密码学方式
当一些特定机器学习场景需要通过多方输入时,可以基于一些密码学协议完成密文数据的模型训练。
-
同态加密:是一种可以在允许直接在密文的上进行计算的特殊密码学算法,如果可以支持任意的计算,成为全同态算法。目前大多数PPML方案仅采用高效的加法同态加密(如Paillier算法),该算法支持“密文的加法“和“明文与密文的乘积”两种形式运算。该方案需要引入第三方隐私服务方,在同态加密时,使用其公钥进行加密;计算服务方只负责密文计算,密文计算的结果只有通过隐私服务方才能完成解密。目前大多数PPML方案仅保护用户的隐私输入,任何人都可以看到预测的模型,未考虑模型泄漏隐私数据的情形。文献[1]结合多种同态加密方案构造一系列基础算子协议(如,比较大小、argmax、点乘),可以满足朴素贝叶斯、决策树等分类模型,该方案可以实现对客户端的模型隐藏。文献[2] 基于全同态加密技术构造了一个深度神经网络的PPML方案,针对CIFAR-10数据集,密文数据下模型准确率可达到90.67% ,与原始明文的ResNet-20 CNN模型结果很相近。除了PPML领域,同态加密将有效解决安全外包计算、云计算场景下的隐私计算问题。
-
混淆电路 (Yao):假如计算双方(Alice和Bob)需要将他们的隐私数据完成某函数的运算,Alice可以将该函数准化为混淆电路,并将电路发送给Bob。Bob通过不经意传输的方式获得Alice的隐私输入(即对应的密钥),通过解密电路获得计算的结果。
-
秘密分享:通常情况下,每个参与方通常将各自的秘密值拆分成不同的shares,将这些shares发送给第三方服务器(不合谋);服务器将收到的shares进行计算中间结果,并发送给需要知道结果的参与方(结果方);结果方将收到的中间值再次计算获得最终值。相比于混淆电路和同态加密,秘密分享方式非常高效。
文献[3] 基于算术分享和Yao分享等混合的协议实现线性回归、逻辑回归以及神经网络等算法比较通用的PPML方案,其中,方案提出MPC友好的激活函数。
安全处理器:以SGX为例,参与方首先将隐私数据安全上传到“enclave”,机器学习任务在安全处理器中执行;结果方可以通过SGX的安全通道获得相应的结果。业内已有一些方案基于SGX开发了一些神经网络、SVM、决策树等相关模型。
以上方式可以进行混合使用,可以根据业务场景和安全策略进行相应的选择和封装。对于计算资源充足的服务商,可以直接采用(全)同态加密的方式,将数据进行加密,通过密文进行训练和预测。对于计算资源有限的服务商,数据拥有者与远程服务器之间通过安全多方计算完成,但是需要要求所有参与方同时在线。对于安全要求较高的场景,可以将计算任务交给安全处理器执行。
2.2 数据扰动技术
数据扰动一种通过对输入数据、算法的中间迭代或者算法输出等过程中增加随机噪声,以防止恢复出隐私数据的技术,典型代表为差分隐私(Differential privacy ,DP) 。除差分隐私之外,还可以采用数据降维、数据泛化等方式进行数据扰动。不同于大多数DP方案都是假设通过可信的数据聚合器进行数据处理,本地差分是一种不借助可信第三方服务,参与方在本地侧加入随机噪声。通过该技术可以有效抵抗 上一节5提到的攻击以及差分攻击。主要分为以下场景进行噪声添加(三种可单独或组合):
- 输入过程:将隐私数据本身添加相应的噪声(如高斯噪声或者拉普拉斯噪声等),基于已有噪声的数据进行相应计算,获得具有实用性而带有隐私保护的结果。
- 算法迭代过程:在多方参与的PPML场景中,往需要经过多轮的迭代和交互;在进行梯度等中间参数交互时,添加噪声。
- 输出过程:对生成好的算法模型或者结果添加噪声,对于一些非数值型结果,需要添加指数型噪声。
以上PPML技术主要关注模型训练阶段,然而在数据发布、数据预处理、模型训练以及模型服务等环节都有可能存在安全威胁,需要一套全链路的安全解决方案。比如在模型服务阶段,最简单等方式就是限制模型的访问次数来防止模型逆向攻击,当然也可以通过模型转化、模型压缩的方式来解决,具体可参考文献[5]。随着智能终端的算力不断提升,使得本地模型训练和计算成为可能。数据的本地处理和模型训练一方面可以减轻中心服务的压力,同时可以提升方案的安全性和隐私性要求。
三、隐私机器学习挑战
尽管,基于以上技术手段可以保障机器学习训练或预测过程中的数据隐私,但仍未在日常的机器学习中广泛应用。主要存在以下几个挑战:
技术实用性问题:以上PPML技术仅局限于相对固定的机器学习算法,对于一些新的、高级的算法,PPML技术需要进行一定程度上的重构。
性能问题:PPML技术会带来额外的计算、通信以及存储成本,比如同态加密存在较大的计算和存储开销,MPC带来很大的通信开销。有一些PPML方案性能低于传统ML几十倍,有一些模型甚至高达上百倍。这往往限制此类PPMl方案很难适用于大量的数据,当然也可以基于分布式计算学习的方式只进行模型参数的安全交互进行避免。
PPML本身的安全性和隐私性问题:PPML方案都是基于安全假设进行设计,例如参与方诚实但好奇的、多个参与方之间不合谋的等假设。此外,针对PPML的隐私性的评估问题,缺少一套完善的隐私评估工具。比如,有一些安全多方计算的计算本身容易泄漏数据的评估;差分隐私的隐私预算会带来模型的准确率下降,预算值如何设置,满足隐私性的要求等。
目前,PPML相关领域的研究人员仍然积极探索构造出理想的PPML方案,实现在系统效率、模型性能以及隐私性三者之间权衡。在笔者看来,这也许是一个不可能三角问题。从实践角度来说,针对某些特定领域,只需要构造出相对实用的PPML解决方案即可。
参考文献
[1] Bost R , Popa R A , Tu S , et al. Machine Learning Classification over Encrypted Data[C]// Network and Distributed System Security Symposium. 2014.
[2] Lee J W , Kang H C , Lee Y , et al. Privacy-Preserving Machine Learning with Fully Homomorphic Encryption for Deep Neural Network[J]. 2021.
[3] Mohassel P , Zhang Y . PRIVACY-PRESERVING MACHINE LEARNING[C]// 2017 IEEE Symposium on Security and Privacy (SP). 0.
[4] Al-Rubaie M , Chang J M . Privacy-Preserving Machine Learning: Threats and Solutions[J]. IEEE Security & Privacy, 2019, 17(2):49-58.
[5] R Xu, Baracaldo N , Joshi J . Privacy-Preserving Machine Learning: Methods, Challenges and Directions[J]. 2021.