差分隐私(一)概念&熵

600 阅读4分钟

一、差分隐私的概念

定义

  对查询的结果加入噪声,使得差分攻击的攻击者无法辨别某一样本是否在数据集中。最早于2008年由 Dwork 提出,是目前基于扰动的隐私保护方法中安全级别最高的方法。
  差分隐私建立在随机响应方法的基础上。随机响应的关键思想是引入一种提供合理否认的随机化机制

公式推导

查询函数用 f(x):x  Rf(x):x\rightarrow\;R 表示,随机噪声可以用 rr 表示,最终得到的查询结果就是 M(x)=f(x)+rM(x)=f(x)+r ,对于两个汉明距离为1的数据集 x,xx, x',对于任意的输出集合 SS 有: 差分隐私的定义

note

  1. 汉明距离:对两个字符串进行异或运算,并统计结果为1的个数。
  2. KL-Divergence相对熵 / 梯度与散度
  3. Jensen's 不等式

公式推导: 使的这两个分布尽可能地接近,那么衡量两个分布的差异用KL-Divergence: KL-Divergence

只需要两个分布在差距最大的情况下能够被bound住,所以引入了MAX-Divergence,并且使得它小于ε\varepsilon

MAX-Divergence 定义式推导

隐私预算

ε\varepsilon 就被称为隐私预算,一般而言, ε\varepsilon 越小,隐私保护越好,加入的噪声就越大,数据可用性下降.

ε\varepsilon控制了随机机制在两个相邻数据集上的输出的差异程度,并捕获了在数据库上运行随机机制时丢失了多少隐私。 ε\varepsilon越大,隐私保护的程度越差,ε\varepsilon越小,隐私保护的程度越好. 更大噪声水平下的概率分布图

更大噪声水平下的概率分布图



差分隐私的松弛

 在实际的应用中需要很多的隐私预算。因此为了算法的实用性,Dwork后面引入了松弛版本的差分隐私:
松弛版本的差分隐私


推导:

相比较于原始的式子,对分子减去了一个 δ\delta ,也就是说我们可以容忍一个较小的差距。直观形式如下,像图中标注的位置,本来 ϵ\epsilon 是无法bound住,但是我们考虑松弛项 δ\delta ,整体依旧满足差分隐私。一般 δ\delta 都设置的比较小。 松弛差分隐私的推导 松弛差分隐私

差分隐私的特性

后处理性: 差分隐私机制不受后处理的影响,任何差分隐私的随机响应机制和任意函数进行组合,得到的新函数仍然是差分隐私的。形式化:如果一个机制M[]是ε\varepsilon -DP的,g()是一个任意函数,则g(M[])仍然是ε\varepsilon-DP的。因此,差分隐私可以抵御数据链接攻击。

可组合性: 差分私有机制在组合下是封闭的。如果我们在同一数据集上应用多种不同的机制(或多次使用相同的机制),这些机制整体上仍然是差分隐私的,但是ε\varepsilon值会产生变化。具体来说,假设我们将k个机制进行组合,每个机制都符合ε\varepsilon-DP的,则最后得到的整体的机制至少是 kε\varepsilon-DP 的。由此,DP可以抵挡差分攻击。

上述性质使得DP机制可作为通用组件。任何大型差分隐私机制都可以组合在一起,同时仍然具有差分隐私性质。但是,组合定理也存在极限的。虽然组合可以保护隐私,但随着组合中的DP机制的增加, ε\varepsilon的值会增加,隐私保护的性能会随着DP机制数量的增加而下降。如果组合的DP机制过多,ε\varepsilon的值将变得过大,使得随机机制在相邻数据库上产生的差异极度明显,无法产生隐私保护的效果。

二、瑞丽熵(Renyi Entropy)

定义

熵-Entropy可以用来描述系统多样性,不确定性和随机性。而Renyi Entropy 瑞丽熵是熵的推广,用来衡量==系统不确定性==的指标。

公式推导

瑞丽熵的公式推导

note: 范数

三、瑞丽散度(Renyi Divergence)

  瑞丽散度用来衡量两个分布之间的差距,是KL-Divergence和Max-Divergence的推广。   Renyi在Kullback-Leibler散度的基础上引申出Renyi divergence。在形式上也是引入了一个 α\alpha 阶参数,所以也可称其为 α\alpha -divergence。如下, Renyi Divergence

KL-Divergence


定义:    KL Divergence=Cross entropyShannon entropyKL\ Divergence = Cross\ entropy - Shannon\ entropy KL-Divergence
非对称性/非负性/凹性的性质证明
非对称性证明非负性证明 凹性证明最小化KL divergence目标函数

最小化KL divergence目标函数

最小化正向KL目标函数

最小化正向KL目标函数1 最小化正向KL目标函数2

最小化反向KL目标函数

最小化反向KL目标函数