一、差分隐私的概念
定义
对查询的结果加入噪声,使得差分攻击的攻击者无法辨别某一样本是否在数据集中。最早于2008年由 Dwork 提出,是目前基于扰动的隐私保护方法中安全级别最高的方法。
差分隐私建立在随机响应方法的基础上。随机响应的关键思想是引入一种提供合理否认的随机化机制。
公式推导
查询函数用 表示,随机噪声可以用 表示,最终得到的查询结果就是 ,对于两个汉明距离为1的数据集 ,对于任意的输出集合 有:
note
- 汉明距离:对两个字符串进行异或运算,并统计结果为1的个数。
- KL-Divergence相对熵 / 梯度与散度
- Jensen's 不等式
公式推导:
使的这两个分布尽可能地接近,那么衡量两个分布的差异用KL-Divergence:
只需要两个分布在差距最大的情况下能够被bound住,所以引入了MAX-Divergence,并且使得它小于 :
隐私预算
就被称为隐私预算,一般而言, 越小,隐私保护越好,加入的噪声就越大,数据可用性下降.
控制了随机机制在两个相邻数据集上的输出的差异程度,并捕获了在数据库上运行随机机制时丢失了多少隐私。 越大,隐私保护的程度越差,越小,隐私保护的程度越好.
更大噪声水平下的概率分布图
差分隐私的松弛
在实际的应用中需要很多的隐私预算。因此为了算法的实用性,Dwork后面引入了松弛版本的差分隐私:
推导:
相比较于原始的式子,对分子减去了一个 ,也就是说我们可以容忍一个较小的差距。直观形式如下,像图中标注的位置,本来 是无法bound住,但是我们考虑松弛项 ,整体依旧满足差分隐私。一般 都设置的比较小。
差分隐私的特性
后处理性: 差分隐私机制不受后处理的影响,任何差分隐私的随机响应机制和任意函数进行组合,得到的新函数仍然是差分隐私的。形式化:如果一个机制M[]是 -DP的,g()是一个任意函数,则g(M[])仍然是-DP的。因此,差分隐私可以抵御数据链接攻击。
可组合性: 差分私有机制在组合下是封闭的。如果我们在同一数据集上应用多种不同的机制(或多次使用相同的机制),这些机制整体上仍然是差分隐私的,但是值会产生变化。具体来说,假设我们将k个机制进行组合,每个机制都符合-DP的,则最后得到的整体的机制至少是 k-DP 的。由此,DP可以抵挡差分攻击。
上述性质使得DP机制可作为通用组件。任何大型差分隐私机制都可以组合在一起,同时仍然具有差分隐私性质。但是,组合定理也存在极限的。虽然组合可以保护隐私,但随着组合中的DP机制的增加, 的值会增加,隐私保护的性能会随着DP机制数量的增加而下降。如果组合的DP机制过多,的值将变得过大,使得随机机制在相邻数据库上产生的差异极度明显,无法产生隐私保护的效果。
二、瑞丽熵(Renyi Entropy)
定义
熵-Entropy可以用来描述系统多样性,不确定性和随机性。而Renyi Entropy 瑞丽熵是熵的推广,用来衡量==系统不确定性==的指标。
公式推导
note:
三、瑞丽散度(Renyi Divergence)
瑞丽散度用来衡量两个分布之间的差距,是KL-Divergence和Max-Divergence的推广。
Renyi在Kullback-Leibler散度的基础上引申出Renyi divergence。在形式上也是引入了一个 阶参数,所以也可称其为 -divergence。如下,
KL-Divergence
定义:
非对称性/非负性/凹性的性质证明
最小化KL divergence目标函数
最小化正向KL目标函数