安全|隐私保护增强技术

382 阅读3分钟

数据保护技术有传输加密、存储加密、展示脱敏等,这些技术也可以用在个人隐私保护上,而保护个人隐私这些技术是不够的,所以就有隐私保护增强技术PET(Privacy Enhancing Technologies)。

匿名化、假名化

匿名化,就是通过一定的算法,不可逆地去除数据集中的身份标识信息,使得无法从中定位到任何自然人。

现在有一组数据如下所示:

image.png

去掉一些身份标识信息(姓名、身份证号、家庭地址)后,如下所示:

image.png

在2000年,来自卡内基梅隆大学的Latanya Sweeney教授(现为哈佛大学教授)发表了一篇报告“Simple Demographics often Identify People Uniquely”(简单的人口统计往往能识别出人的独特性)报告,研究表明,仅使用年龄、性别和邮政编码等简单的人口统计学信息,就可以在美国人口中唯一地确定超过87%的人。

所以简单地删除敏感字段或假名化(姓名替换为假名),并不足以保护个人隐私。

K-匿名

K-匿名(K-anonymity)是一种隐私保护技术,用于在数据集中隐藏个人身份。它通过将数据中的每个记录与至少其他K-1个记录不可区分。

如上数据集,设置 k=3 时,如下所示:

image.png

这两条信息在可用于定位的3个字段上完全相同(疾病是隐私信息,假设数据集发布前除了医院和自己家人,没有外人知道),无法从这个信息中判断具体的自然人患了何种疾病,从而降低了具体自然人的隐私泄露风险.

但是如果疾病都是一样的话,就可以判断自然人患了何种疾病,如下图所示:

image.png

差分隐私

差分隐私(Differential privacy, DP)是微软研究院的Dwork在2006年提出的一种隐私保护模型,就是为了解决差分攻击而引入的解决方案,可以有效防止研究人员从查询接口中找出自然人的个人隐私数据。

差分攻击

在医院候诊大屏幕上显示当前排队人数的时候,可以使用近似值,如“大约90人”,而不是精确数字“90人”,这样可以避免泄露个人信息。此外,可以在显示数字时使用不连续变化的方式,例如在某人进去之前显示“大约90人”,进入之后显示“大约100人”,这样也可以保护个人隐私。这种方法在保护个人隐私的同时,仍然提供了有用的信息给公众。

原理

假设原始数据集为D(可以理解为一张表),在其基础上增加或减少一条记录构成D',这时D和D’为临近数据集;某个差分隐私算法为A(),对数据集D运算并添加噪声的结果为A(D) = V;对数据集D’运算并添加噪声的结果为A(D') = V'; V和V’就是统计运算的结果,用P()表示A(D) = V的概率。

要求:对临近数据集的运算结果基本一致,也就是 ε 接近 0时,P(V)=P(V')如下所示

image.png

差分隐私从数学上证明了,即使攻击者已掌握除某一条指定记录之外的所有记录信息(即最大背景知识假设),它也无法确定这条记录所包含的隐私数据。差分隐私同时也对隐私保护水平给出了严谨的定义和量化评估方法。

在差分隐私出现后,我们可以不必再直接提供经过K -匿名处理的数据集,而是提供经差分隐私保护的统计查询接口(查询的数值结果上添加噪声),可以更好地保护个人隐私。

差分隐私有点相似 同态加密技术