基于差分隐私的数据流隐私保护模式
专有名词
privacy-preserving mechanisms(PPMs) 隐私保护机制
different privacy(DP) 差分隐私
Internet of things(IoT) 物联网
complex event processing (CEP) 复杂事件处理
related work相关工作
system model
datasubjects−CEPengine(middleware)−dataconsumer
- data subjects: 提供数据
- CEP engine: 作为中间件提供隐私保护和传递数据
- data consumer: 提供互联网服务
assumption
infinitedatastreamSD=(d1,d2,...di...)
SD→eventstreamSE=(e1,e2...)
- 可以将任意的时间戳的数据转换成事件,将数据流转换成事件流
- 合并事件流时,相同时间戳的事件可以任意排序,对结果没有影响
combinemutipleenvent→patternP=seq(e1,e2,e3...)
- 当给定多个事件流时,可以将其合并为一个事件流(模式)
patternstream→SP=(P1,P2...)
- pattern包括private pattern和public pattern
problem statement
recall(Rec)/precition(Prec)
- 为了检测更多的目标模式,使用召回率(Rec)
- 为减少误检次数,使用精度(Prec)
- 检测结果
- TP(true position):预测正确,结果为正样本,预测为正样本
- TN:预测正确,结果为反样本,预测为反样本
- FP:预测错误,结果为反样本,预测为正样本
- FN:预测错误,结果为正样本,预测为反样本
Rec=TP+FNTP
- TP+FP为预测正样本的总数
- Rec为所有样本中有多少正样本被找出来了
Prec=TP+FPTP
combination of Rec and Prec
- 只使用召回率和精度评估会导致
- 为减少误检次数,使用精度(Prec)
- 检测结果
- TP(true position):预测正确,结果为正样本,预测为正样本
- TN:预测正确,结果为反样本,预测为反样本
- FP:预测错误,结果为反样本,预测为正样本
- FN:预测错误,结果为正样本,预测为反样本
Rec=TP+FNTP
- TP+FP为预测正样本的总数
- Rec为所有样本中有多少正样本被找出来了
-
Prec=TP+FPTP
combination of Rec and Prec
- 只使用召回率和精度评估会导致召回率达到100%时,损失精度和性能
- 所以将召回率和精度结合
Q=αPrec+(1−α)Rec
Mean Relative Error(MRE)
MREQ=QordQord−QPPM
- Qord为未使用PPM(隐私保护)的数据质量
- QPPM为使用了PPM的数据质量
pattern-level DP
Definition 1
- 定义in-pattern neighbors
如果有两个模式,他们的长度相同
P=seq(e1,e2...em);p′=seq(e1′,e2′...em′)
当且仅当他们只有一对事件不相同
∃i,Pi=Pi′and∀j=i,Pi=Pj′
Definition 2
q是一种查询的方式,所有符合q的都属于P模式
Pisgrouppatternqueriedbyq
Definition 3
- 定义pattern-level neighbor
给定两个无限的模式流
SP=(P1,P2...);SP′=(P1′,P1′...)
对于
∀Pi∈Pandj=i
存在定理
Pi=Pj′
PiandPj′arein−patternneighbor
Definition 4
- 定义pattern-level ε-DP
M是一种机制,输入stream D,输出response R
当且仅当
Ri⊂RandSP,SP′arepatternneighbor
存在
Pr[M(SP)∈Ri]≤eϵPr[M(SP′∈Ri)]
Pattern-level PPMS
assumption
- 部分查询只需要binary answer(true or false)
- binary answer可以解决一些分类答案和数据答案
uniform pattern-level PPM
自适应模式级PPM
Definition 5
机制M提供随机的回答,其中输入是I(e)回答是R
I(ei)∈{1,0}Ri∈{1,0}
Adaptive Pattern-level PPM Based on Historical data
基于历史数据模式的自适应模式级PPM
Dataset
使用了taxi1数据集里面包含了北京10357辆taxi的GPS的定位