文献笔记Differential Privacy for Protecting Private Patterns in Data Streams

59 阅读3分钟

基于差分隐私的数据流隐私保护模式

专有名词

privacy-preserving mechanisms(PPMs) 隐私保护机制
different privacy(DP) 差分隐私
Internet of things(IoT) 物联网
complex event processing (CEP) 复杂事件处理

related work相关工作

system model

data  subjectsCEP  engine(middleware)data  consumerdata\;subjects-CEP\;engine(middleware)-data\;consumer

  • data subjects: 提供数据
  • CEP engine: 作为中间件提供隐私保护和传递数据
  • data consumer: 提供互联网服务

assumption

infinite  data  stream  SD=(d1,d2,...di...)infinite\;data\;stream\;S^D=(d_1,d_2,...d_i...)

  • i为时间戳

SDevent  stream  SE=(e1,e2...)S^D\rightarrow event\;stream\; S^E=(e_1,e_2...)

  • 可以将任意的时间戳的数据转换成事件,将数据流转换成事件流
  • 合并事件流时,相同时间戳的事件可以任意排序,对结果没有影响

combine  mutiple  enventpattern  P=seq(e1,e2,e3...)combine\;mutiple\;envent\rightarrow pattern \;P=seq(e_1,e_2,e_3...)

  • 当给定多个事件流时,可以将其合并为一个事件流(模式)

pattern  streamSP=(P1,P2...)pattern\;stream\rightarrow S^P=(P_1,P_2...)

  • pattern包括private pattern和public pattern

problem statement

recall(Rec)/precition(Prec)
  • 为了检测更多的目标模式,使用召回率(Rec)
  • 为减少误检次数,使用精度(Prec)
  • 检测结果
    • TP(true position):预测正确,结果为正样本,预测为正样本
    • TN:预测正确,结果为反样本,预测为反样本
    • FP:预测错误,结果为反样本,预测为正样本
    • FN:预测错误,结果为正样本,预测为反样本

Rec=TPTP+FNRec=\frac{TP}{TP+FN}

  • TP+FP为预测正样本的总数
  • Rec为所有样本中有多少正样本被找出来了

Prec=TPTP+FPPrec=\frac{TP}{TP+FP}

  • Prec检测为正样本中,有多少是检测正确的
combination of Rec and Prec
  • 只使用召回率和精度评估会导致
  • 为减少误检次数,使用精度(Prec)
  • 检测结果
    • TP(true position):预测正确,结果为正样本,预测为正样本
    • TN:预测正确,结果为反样本,预测为反样本
    • FP:预测错误,结果为反样本,预测为正样本
    • FN:预测错误,结果为正样本,预测为反样本

Rec=TPTP+FNRec=\frac{TP}{TP+FN}

  • TP+FP为预测正样本的总数
  • Rec为所有样本中有多少正样本被找出来了

Prec=TPTP+FPPrec=\frac{TP}{TP+FP}

  • Prec检测为正样本中,有多少是检测正确的
combination of Rec and Prec
  • 只使用召回率和精度评估会导致召回率达到100%时,损失精度和性能
  • 所以将召回率和精度结合

Q=αPrec+(1α)RecQ=\alpha Prec+(1-\alpha)Rec

Mean Relative Error(MRE)
  • 使用平均相对误差衡量隐私保护下数据的质量损失

MREQ=QordQPPMQordMRE_{Q}=\frac{Q_{ord}-Q_{PPM}}{Q_{ord}}

  • Qord为未使用PPM(隐私保护)的数据质量
  • QPPM为使用了PPM的数据质量

pattern-level DP

Definition 1

  • 定义in-pattern neighbors 如果有两个模式,他们的长度相同

P=seq(e1,e2...em);  p=seq(e1,e2...em)P=seq(e_1,e_2...e_m); \; p'=seq(e'_1,e'_2...e'_m)

当且仅当他们只有一对事件不相同

  i,PiPi  and    ji,Pi=Pj\exists \;i,P_i \ne P'_i\;and \;\forall\;j\ne i,P_i=P'_j

Definition 2

q是一种查询的方式,所有符合q的都属于P模式
P  is  group  pattern  queried  by  q\mathcal{P}\;is\;group\;pattern\;queried\;by\;q

Definition 3

  • 定义pattern-level neighbor 给定两个无限的模式流

SP=(P1,P2...);SP=(P1,P1...)S^P=(P_1,P_2...);S^{P'}=(P'_1,P'_1...)
对于
  Pi  P  and  ji\forall\;P_i\in \;\mathcal{P}\;and\; j \ne i
存在定理
Pi=PjP_i=P'_j
Pi  and  Pj  are  inpattern  neighborP_i\;and\;P'_j\;are\;in-pattern\;neighbor

Definition 4

  • 定义pattern-level ε-DP M是一种机制,输入stream D,输出response R 当且仅当

RiR    and    SP,SP  are  pattern  neighbor\mathcal{R_i}\subset \mathcal{R} \;\; and \;\;S^P,S^{P'}\;are\;pattern\;neighbor
存在
Pr[M(SP)Ri]eϵPr[M(SPRi)]Pr[\mathcal{M}(S^P)\in\mathcal{R_i}]\leq e^{\epsilon}Pr[\mathcal{M}(S^{P'}\in \mathcal{R_i})]

Pattern-level PPMS

assumption

  • 部分查询只需要binary answer(true or false)
  • binary answer可以解决一些分类答案和数据答案

uniform pattern-level PPM

自适应模式级PPM

Definition 5

机制M提供随机的回答,其中输入是I(e)回答是R
I(ei){1,0}    Ri{1,0}I(e_i)\in\{1,0\}\;\;R_i\in\{1,0\}

Adaptive Pattern-level PPM Based on Historical data

基于历史数据模式的自适应模式级PPM

Dataset

使用了taxi1数据集里面包含了北京10357辆taxi的GPS的定位