文献阅读-Privacy-Aware Time-Series Data Sharing With Deep Reinforcement Learning

1,793 阅读12分钟

摘要

物联网 (IoT) 设备因其提供的许多新服务和应用程序而变得越来越流行。然而,除了它们的许多好处之外,它们还引发了隐私问题,因为它们与不受信任的第三方共享细粒度的时间序列用户数据。在这项工作中,我们研究了时间序列数据共享中的隐私效用权衡 (PUT)。现有的 PUT 方法主要关注单个数据点;然而,时间序列数据中的时间相关性带来了新的挑战。保护当前时间隐私的方法可能会在跟踪级别泄漏大量信息,因为对手可以利用跟踪中的时间相关性。我们考虑与不受信任的第三方共享用户真实数据序列的扭曲版本。我们通过用户真实数据序列和共享版本之间的互信息来衡量隐私泄露。在给定的失真度量下,我们将两个序列之间的瞬时失真和平均失真都视为效用损失度量。为了解决依赖于历史的互信息最小化问题,我们将问题重新表述为马尔可夫决策过程 (MDP),并使用异步演员评论家深度强化学习 (RL) 来解决它。我们评估了所提出的解决方案在合成和 GeoLife GPS 轨迹数据集上的位置跟踪隐私方面的性能。对于后者,我们通过测试针对对手网络发布的位置轨迹的隐私来证明我们解决方案的有效性。

INTRODUCTION

物联网设备的发展让它们可以搜集更多的个人信息以提供个性化的服务同时也带来了被恶意攻击者窃取隐私的风险。因此,时间序列数据隐私一直是一个重要的问题,消费者越来越要求保护他们的数据踪迹免受恶意攻击者或不受信任的服务提供商 (SP) 的侵害,同时保留从这些物联网服务中获得的效用。我们在本文中的目标是研究共享敏感时间序列数据时的基本隐私实用权衡 (PUT)。

贡献
在这项工作中,我们考虑了用户通过物联网设备测量一阶马尔可夫过程生成的时间序列数据(例如,位置,心跳,温度或能耗)的场景,并定期将其真实数据的扭曲版本报告给不受信任的SP以获得效用。我们假设真实的数据以在线方式提供给用户。我们使用真实和扭曲数据序列之间的互信息作为隐私损失的度量,并通过真实和扭曲样本之间的特定失真度量来衡量报告数据的效用。对于 PUT,我们引入了一种在线隐私数据发布策略 (PDRP),该策略可最大限度地减少互信息,同时将失真保持在特定阈值以下。我们同时考虑瞬时和平均失真约束。我们考虑将整个发布数据历史考虑在内的数据发布策略,并显示其信息论最优性。为了解决复杂性,我们利用了用户真实数据序列的马尔可夫性,并将问题重铸为马尔可夫决策过程 (MDP)。在确定最优策略的结构后,我们使用优势演员评论家 (A2C) 深度强化学习 (RL) 框架作为工具,以数字方式评估我们的连续状态和动作空间 MDP。据我们所知,这是第一次使用深度强化学习工具来优化信息论时间序列数据隐私。

提出的PDRPs在两个特定场景下的性能进行了测试:在第一个场景中,考虑到用户在一个已知马尔可夫移动模式的网格世界中移动,生成合成的位置轨迹。在第二种情况下,我们使用来自GeoLife数据集[33],[34]的用户GPS跟踪。 对于平均失真约束情况,将提出的PDRP与近视位置数据释放机制进行了比较[18]。虽然可以对合成数据集评估所考虑的pdrp的隐私泄露,但不能对GeoLife跟踪进行评估,因为我们不知道该数据集的真实统计数据。相反,我们使用对手(根据过去发布的位置预测用户的当前位置)来比较拟议策略和近视策略所实现的隐私。对手由长短期记忆(LSTM)预测器表示。在不同的对手内存大小下测试了所提出策略的性能。本文扩展了我们之前关于位置共享PUT的理论方法[22]。我们的贡献总结如下:

  • 我们通过利用用户真实数据序列的马尔可夫特性提出了一个简化的 PDRP。然后,我们证明了简化策略的信息论最优性。
  • 我们将信息论时间序列数据 PUT 问题重建为 MDP,并使用优势 actor-critic 深度强化学习在数值上评估最佳 PDRP。
  • 我们将获得的信息理论上最优的 PDRP 应用于位置跟踪隐私问题,并使用合成和 GeoLife [33] 轨迹数据集评估其在瞬时和平均失真约束下的性能。

PROBLEM STATEMENT

我们考虑时间序列 {Xt}t1\{X_t\}_{t≥1},从有限离散集WW中取值。用户与 SP 共享{Xt}\{Xt\}以通过某些在线服务获得效用。我们假设用户的真实数据序列{Xt}t1\{X_t\}_{t≥1}服从转移概率为qx(xt+1xt)q_x(x_{t+1}|x_t)、初始概率分布为px1p_{x_1}的一阶时间齐次马尔可夫链。虽然为真实数据假设的一阶马尔可夫结构可能看起来有限制性,但我们将展示我们的解决方案技术推广到高阶马尔可夫链,尽管数值解决方案的复杂性有所增加。在文献中,马尔可夫结构是时间序列数据的常见假设,并且由于这些数据的历史依赖行为,它被证明是位置轨迹、智能电表读数和财务数据的合理假设时间序列。

用户不是在时间tt分享其真实数据,而是分享她当前数据的扭曲版本,用YtWY_t∈W表示。在时间tt发布的数据YtY_t不依赖于未来的数据样本;即对于任何1<t<nYt(Xt,Yt1)(Xt+1n,Yt+1n)1 < t < n,Y_t → (X^t , Y^{t−1}) → (X^n_{t+1}, Y^n_{t+1})形成马尔可夫链,其中我们通过Xt+1nX^n_{t+1}表示序列(Xt+1,...,Xn)(X_{t+1},..., X_n),通过XtX^t表示序列(X1,...,Xt)(X_1,..., X_t)。表 I 列出了整篇论文中使用的符号。 image.png

用户的发布策略在一个时间段nn内的信息泄露由以下公式给出 image.png

image.png

在时间序列数据隐私问题中,我们希望最小化以减少对SP的信息泄漏。然而,当我们为了保护隐私而对真实的数据序列施加更多的扭曲时,由于与原始序列的偏差增加,就会失去更多的效用。也就是说,释放失真的数据会减少从SP那里得到的效用,而用户应用的失真应该限制在一定的水平上。因此,我们的主要目的是对隐私和效用之间的权衡进行描述。真实数据样本Xt 和发布的版本Yt 之间的失真是由基于基础应用(如曼哈顿距离或欧氏距离)指定的失真度量dXtYtd(X_t ,Y_t )来衡量、其中d(Xt,Yt)<d(Xt , Yt ) <∞

我们的主要目标是在满足效用失真约束的情况下,最小化SP的信息泄漏率。在整篇论文中,我们考虑了PDRP引入的两种不同的失真约束,即瞬时失真约束和平均失真约束。无限时间跨度最优化问题可写成:
瞬时失真约束:
image.png

平均失真约束:
image.png

PUT FOR TIME-SERIES DATA SHARING

在本节中,我们分析了在具有瞬时和平均失真约束的互信息最小化概念下,由隐私感知的时间序列数据发布机制实现的最优PUT。此外,我们提出了仍然保持最优性的简化pdrp。
由于具有较强的历史依赖性,最小化问题的计算复杂度随着数据序列的长度呈指数增长。为了解决这个问题,我们引入了一类简化的策略,并证明它们不会导致PUT中的最优性损失

简化PDRPsPDRPs

简化的PDRPsPDRPs仅通过考虑最近两个时间实例中的真实数据和整个发布的数据历史来对扭曲的数据进行采样。

image.png 通过图2中的马尔科夫链来说明用户遵循的简化的PDRP,其中YtY^t表示发布的数据历史。也就是说,用户通过考虑当前和先前的真实数据(XtXt1)(X_t,X_{t−1})以及发布的数据历史Yt1Y^{t−1},在时间tt对失真数据YtY_t进行采样

image.png

具有瞬时失真约束的在线PDRP

具有瞬时失真约束的在线PDRP(PDRP-IDC)的目标可以重写为

image.png

具有平均失真约束的在线PDRP

image.png

利用拉格朗日乘子可以将具有失真约束的互信息最小化问题转化为无约束最小化问题。由于简化的PDRP产生的失真约束是无记忆的,因此我们可以很容易地将其整合到加性互信息目标中。因此,时间序列数据发布的无约束极小化问题可以重写为

image.png

其中,λ是拉格朗日乘数,决定了权衡曲线上的工作点,即表示互信息和畸变约束的梯度指向同一方向的位置。当λ = 0时,用户发布数据样本,这只会最大限度地减少信息泄漏。另一方面,当 λ → ∞ 时,释放的数据仅最小化失真约束,而不是信息泄漏,从而导致完全信息泄漏。

MDP FORMULATION

用户真实数据序列的马尔可夫性以及(15)和(19)中的可加性目标函数允许我们将问题表示为状态为Xt的MDP。但是,t时刻的信息泄漏依赖于Yt1Y^{t−1},导致状态空间随时间增长。因此,对于给定策略qsq_s和任意Yt1Y^{t−1}的实现yt1y^ {t-1},我们定义一个信念状态βtPXβt∈\mathcal{P}_X为状态空间上的概率分布:

image.png

我们定义用户在时刻tt采取at(ytxt,xt1)a_t(y_t|x_t, x_{t−1})动作导致的每步信息泄漏为:

image.png

(22)的n步和对联合概率Pqs(Xt,Xt1,Yt)P^{qs} (X_t, X_{t−1},Y^t)的期望等于原问题(6)中的互信息表达式。因此,给定信念概率和行动概率,t时刻的平均信息泄漏可表示为:

image.png 我们可以将(15)中的PDRP-IDC问题重新定义为连续状态和动作空间MDP。PDRP-IDC问题的MDP求解依赖于目标最小化

image.png

我们可以将(19)中的PDRP-ADC问题重新定义为连续状态和动作空间MDP,其每步代价函数为

image.png

寻找连续状态和动作空间mdp的最优策略是一个PSPACE-hard问题[38]。在实践中,它们可以通过各种有限状态MDP评估方法来求解,如值迭代、策略迭代和基于梯度的方法。这些都是基于连续信念状态的离散化来获得有限状态MDP[39]。对信念进行更精细的离散化,减少了最优解的损失,但也导致了状态空间维数的增加;因此,在问题的复杂性中。为了克服复杂性的限制,我们将采用基于深度学习的方法作为工具来数值解决我们的连续状态和动作空间MDP问题。

Advantage Actor-Critic (A2C) Deep RL

image.png 我们简单地用C(βt,at)C(β_t, a_t)at(ytxt,xt1)a_t(y_t|x_t, x_{t−1})分别表示PDRP-IDC和PDRP-ADC的MDP成本和作用对。将解集成到瞬时和平均畸变约束的情况下很简单。
在RL中,代理人通过从环境中接收即时的奖励/成本来发现在特定状态下采取的最佳行动。另一方面,在我们的问题中,我们知道状态转换概率和每个状态行动对的成本,而不需要与环境互动。我们使用A2C-深度RL作为计算工具, 对我们的连续状态和行动空间MDP 的最优PDRP进行数值评估。

为了将 RL 框架集成到我们的问题中,我们创建了一个人工环境,输入用户当前的操作at(ytxt,xt1)a_t(y_t|x_t, x_{t−1}),对观察值yty_t进行采样,并使用贝叶斯信念更新计算下一个状态 βt+1 (21)。环境揭示的瞬时成本由式(26)计算。用户从环境中接收经验元组(βt,at,yt,βt+1,Ct),并相应地细化她的策略。图 3 说明了人工环境和用户之间的交互,由 RL 代理表示。策略 qs 导出相应的贝尔曼方程

image.png
(27) 的右侧和左侧之间的差异称为时间差异(TD)误差,它表示批评者的估计与目标之间在时间上相差一步的误差[43]。经验元组 (βt,at,yt,βt+1,Ct)(β_t, a_t, y_t, β_{t+1}, C_t)的 TD 误差估计为

image.png

我们没有在参与者和评论家更新中使用价值函数,而是使用优势函数来减少策略梯度方法中的方差。其优势可以通过 TD 误差来近似。因此,批评者通过梯度下降更新为:
image.png
演员的更新类似
image.png

在线 PDRP 的整体 A2C 深度 RL 算法如算法 1 所示。
image.png

亮点

这是第一次使用深度强化学习工具来优化信论时间序列数据隐私。