数据挖掘与隐私:你真的匿名了吗?

118 阅读3分钟

数据挖掘与隐私:你真的匿名了吗?

Sam Carroll //
当我加入BHIS时,对生日等个人数据的敏感性感到惊讶。这让我回想起去年选修的数据挖掘课程,当时卡爾森博士(南达科他矿业理工学院)首先讲解了伦理问题,特别是关于用户数据匿名化与个人数据再识别的伦理风险。

敏感信息若经拙劣混淆处理,可被逆向还原以获取个人具体信息。自1998年GeoCities向客户承诺不共享数据却出售给第三方后,这一问题便成为个人与企业的重要关切。美国联邦通信委员会(FCC)裁定企业不得在隐私政策上撒谎。

许多公司要求用户同意隐私政策,但糟糕的匿名化可能导致敏感信息泄露。最典型的案例来自90年代初:拉塔尼娅·斯威尼发现约90%的美国人口可仅通过邮编、出生日期和性别被唯一识别。为验证这一点,她购买选民名册(公开记录)并与州政府雇员健康保险购买方GIC的数据结合。尽管GIC已删除姓名、社保号和住址,斯威尼仍成功识别出州长的医疗记录(包括处方),而州长本人曾亲自担保匿名化措施的安全。

尽管医疗数据再识别事件仅限于马萨诸塞州,但再识别问题影响几乎所有人,包括科技巨头。

2006年发生两起知名公司隐私泄露事件:Netflix和AOL。Netflix为优化推荐算法举办竞赛,提供了50万用户的评分数据并替换用户名为唯一标识符。研究人员将IMDB(含用户名)的评分与Netflix数据库关联,仅需6条电影评分即可识别几乎所有用户。

AOL同样发布了三个月内的数千万搜索查询,通过删除用户名和IP地址进行匿名化,但仍为每个用户分配唯一标识符。研究人员通过合并单个用户的搜索内容(如“纽约市天气”“18岁周六娱乐活动”、搜索自身姓名或社保号)即可推断其个人信息。甚至涉及更私密的内容,如如何向家人坦白受虐经历或逃离虐待关系。

2009年卡内基梅隆大学发现通过分析数据可推断个人社保号。该方法仅需出生地点(社保号前5位对应物理位置)和公开死亡记录(含社保号)中与出生日期高关联的后4位模式。仅凭两条常见于社交网站的信息即可相对容易地破解社保号。

上周国会通过法案,允许政府及商业无人机运营商收集含面部识别在内的个人标识数据且无需披露。该法案未规定数据使用和销毁机制,表明隐私问题仍待解决。

Pokemon Go在iOS版本中存在严重隐私漏洞,最初要求获取用户整个Gmail账户权限(包括发送邮件、读取日历、通讯录和照片)。尽管开发公司Niantic声称未收集信息,但隐私风险不容忽视。

谨慎分享信息:最隐蔽的隐私获取方式往往是直接索要。人们会对明显危及自身的数据保持警惕,却可能自由分享看似无害的信息。但即使专业人士也未必能保证数据真正匿名,私密数据可能因此泄露。请假设自己已处于风险中,并主动采取防护措施。

资料来源
digital.law.washington.edu/dspace-law/…
epic.org/privacy/rei…
www.nytimes.com/2016/07/14/…
www.computerworld.com/article/309…