文献笔记Differential Privacy for Protecting Private Patterns in Data Streams

基于差分隐私的数据流隐私保护模式

专有名词

privacy-preserving mechanisms(PPMs) 隐私保护机制
different privacy(DP) 差分隐私
Internet of things(IoT) 物联网
complex event processing (CEP) 复杂事件处理

related work相关工作

system model

$data\;subjects-CEP\;engine(middleware)-data\;consumer$

data subjects: 提供数据
CEP engine: 作为中间件提供隐私保护和传递数据
data consumer: 提供互联网服务

assumption

$infinite\;data\;stream\;S^D=(d_1,d_2,...d_i...)$

i为时间戳

$S^D\rightarrow event\;stream\; S^E=(e_1,e_2...)$

可以将任意的时间戳的数据转换成事件，将数据流转换成事件流
合并事件流时，相同时间戳的事件可以任意排序，对结果没有影响

$combine\;mutiple\;envent\rightarrow pattern \;P=seq(e_1,e_2,e_3...)$

当给定多个事件流时，可以将其合并为一个事件流（模式）

$pattern\;stream\rightarrow S^P=(P_1,P_2...)$

pattern包括private pattern和public pattern

problem statement

recall(Rec)/precition(Prec)

为了检测更多的目标模式，使用召回率（Rec）
为减少误检次数，使用精度（Prec）
检测结果
- TP（true position）：预测正确，结果为正样本，预测为正样本
- TN：预测正确，结果为反样本，预测为反样本
- FP：预测错误，结果为反样本，预测为正样本
- FN：预测错误，结果为正样本，预测为反样本

$Rec=\frac{TP}{TP+FN}$

TP+FP为预测正样本的总数
Rec为所有样本中有多少正样本被找出来了

$Prec=\frac{TP}{TP+FP}$

Prec检测为正样本中，有多少是检测正确的

combination of Rec and Prec

只使用召回率和精度评估会导致
为减少误检次数，使用精度（Prec）
检测结果
- TP（true position）：预测正确，结果为正样本，预测为正样本
- TN：预测正确，结果为反样本，预测为反样本
- FP：预测错误，结果为反样本，预测为正样本
- FN：预测错误，结果为正样本，预测为反样本

$Rec=\frac{TP}{TP+FN}$

TP+FP为预测正样本的总数
Rec为所有样本中有多少正样本被找出来了

$Prec=\frac{TP}{TP+FP}$

Prec检测为正样本中，有多少是检测正确的

combination of Rec and Prec

只使用召回率和精度评估会导致召回率达到100%时，损失精度和性能
所以将召回率和精度结合

$Q=\alpha Prec+(1-\alpha)Rec$

Mean Relative Error(MRE)

使用平均相对误差衡量隐私保护下数据的质量损失

$MRE_{Q}=\frac{Q_{ord}-Q_{PPM}}{Q_{ord}}$

Qord为未使用PPM（隐私保护）的数据质量
QPPM为使用了PPM的数据质量

pattern-level DP

Definition 1

定义in-pattern neighbors 如果有两个模式，他们的长度相同

$P=seq(e_1,e_2...e_m); \; p'=seq(e'_1,e'_2...e'_m)$

当且仅当他们只有一对事件不相同

$\exists \;i,P_i \ne P'_i\;and \;\forall\;j\ne i,P_i=P'_j$

Definition 2

q是一种查询的方式，所有符合q的都属于P模式
$\mathcal{P}\;is\;group\;pattern\;queried\;by\;q$

Definition 3

定义pattern-level neighbor 给定两个无限的模式流

$S^P=(P_1,P_2...);S^{P'}=(P'_1,P'_1...)$
对于
$\forall\;P_i\in \;\mathcal{P}\;and\; j \ne i$
存在定理
$P_i=P'_j$
$P_i\;and\;P'_j\;are\;in-pattern\;neighbor$

Definition 4

定义pattern-level ε-DP M是一种机制，输入stream D，输出response R 当且仅当

$\mathcal{R_i}\subset \mathcal{R} \;\; and \;\;S^P,S^{P'}\;are\;pattern\;neighbor$
存在
$Pr[\mathcal{M}(S^P)\in\mathcal{R_i}]\leq e^{\epsilon}Pr[\mathcal{M}(S^{P'}\in \mathcal{R_i})]$

Pattern-level PPMS

assumption

部分查询只需要binary answer（true or false）
binary answer可以解决一些分类答案和数据答案

uniform pattern-level PPM

自适应模式级PPM

Definition 5

机制M提供随机的回答，其中输入是I(e)回答是R
$I(e_i)\in\{1,0\}\;\;R_i\in\{1,0\}$

Adaptive Pattern-level PPM Based on Historical data

基于历史数据模式的自适应模式级PPM

Dataset

使用了taxi1数据集里面包含了北京10357辆taxi的GPS的定位