阅读 292

大数据环境下的隐私保护

本文已参与好文召集令活动,点击查看:后端、大前端双赛道投稿,2万元奖池等你挑战!

说到用户圈选那必然会涉及大量的用户信息,如果作为一个用户你可能很担心,我的信息会不会被泄露,会不会被用来干一些不好的事情?尤其是在当前大数据盛行的时期,一个公司可能掌握了全国甚至世界上很多人的私密信息,包括你的基本资料,也包括你的言语甚至是你的行动轨迹。如果说公司做不好数据安全的工作,把这些信息泄露到一些不法分子的手中,那么会产生非常危险的后果。不仅仅是自身企业的信誉受损,用户的权益受到损害,这些数据被人利用还可能危害社会甚至是国家的安全。因此要做好数据安全工作不仅仅是技术上的,更是公司管理上的重点,需要一系列的制度流程和技术手段共同来保障数据安全。下面,我们就来讨论一下关于数据安全的一些事情。

数据安全问题

我们的大数据体系之下囊括了各种各样的数据,从数据的生产开始,大量数据源源不断地进入我们的大数据平台中,被加以处理和利用。自然,大数据给很多公司带来了大量的收益,也给用户提供了很多便利的服务,为社会创造了很多价值,但是,与之伴随而来的,是各种各样的数据安全问题。在这里,我们先来看一下在大数据体系之下,或者说我们的公司中都会存在着什么样的数据安全问题。

1.硬件安全

首先是硬件方面的安全问题。比如说我们的硬盘、内存、CPU 等,虽然硬件的使用周期很长,但是这些设施长时间使用仍然会有故障出现,尤其是在大数据下,服务器数量众多,大公司或者云服务供应商动辄就有成千上万的服务器。除了本身的故障问题,还可能受到自然灾害、人为破坏的影响,如果硬件发生大面积的问题可能导致我们的服务出现问题。

2.平台安全

平台安全主要是指我们的大数据平台,其中用到很多工具,这些内部使用的平台工具虽然经过很多经验丰富的开发人员开发和使用,但是仍然难免存在着一些缺陷或者漏洞,以及在遇到一些攻击时,可能在某些环节产生数据泄露。

3.服务安全

第三个是提供服务时的安全问题。大数据平台当然不是只放在那里就可以了,我们使用大数据平台来建设公司内部的能力,从而能利用这些数据对外提供服务,包括我们对用户提供的服务和我们内部的服务,比如上节课讲到的圈人系统。对于这些服务,面临的安全风险就更多了,因为这些服务有很多对外暴露的地址、端口等访问方式,如果其中存在一些高风险漏洞就可能被不法分子利用。

4.流程安全

上面三种可以说都是基于数据的容纳场所的安全,不管是服务器还是大数据平台,数据在上面存储和流转,如果它们本身存在安全问题数据当然是不能幸免的。

但是在我们日常的工作中,数据并不只是在这里面存放,而是会有很多的人在使用这些数据。不管是数据分析师通过大数据平台进行分析,还是数据挖掘同学把数据转移到 GPU 机器上进行运算,都是使用数据的正常流程,但是在这些流程中,数据安全问题也非常值得关注,不然在数据经过几次复制转移之后,到底有多少数据流出去,到底有没有重要数据被泄露,已经没有人说得清楚了。

数据安全的技术方案

可以看到,在我们的公司中,面临的数据安全问题很多,所以要严加防范,那么在一般情况下都有什么样的技术方案来解决数据安全问题呢?

1.安全分级

首先我们可以对数据的安全等级进行划分,比如说:

  • 用户的真实信息为最高密级

  • 用户的相关信息为次高密级

  • 用户的行为信息为一般密级

  • 公开信息为最低密级

依照制定好的数据安全等级,在不同的环节给予不同的处理方案,比如说在数据的存储方面,给高安全等级的数据增加更多安全硬件设施;在权限审核上更加严格等等。

有了比较明确的安全等级,也方便对数据安全问题进行监控,一旦发生数据不合规的数据传输,方便确认风险大小。如果没有明确的安全等级,对我们的大数据中所有数据一致管理,要浪费很多资源不说,同时在发生问题时也很难确认该如何处理。

2.权限认证

在大数据体系中,会有很多环节和工具涉及数据的存储和应用,同时,在公司中还有很多的系统会涉及这些数据的使用。在公司层面统一一套权限认证的标准,对于不同安全等级的数据,对使用方采取统一的权限管理,不管是个人使用还是系统使用,都可以接入这个权限认证体系,这样既可以节省数据流转时各种烦琐的申请和审批手续,又可以对数据的应用情况了如指掌。在大数据工具中,有一个通用权限认证解决方案:Kerberos,可以为我们前面提到的很多大数据工具提供权限认证服务。

3.资源隔离

资源隔离方面,通常采用的是多租户方案,也就是在一套硬件上,为不同安全等级的数据建设多套架构服务,比如说对于大数据中的存储 HBase,对高安全等级的数据使用一套单独的 HBase存储,对低等级的数据采用另外一套Hbase存储。这样在操作的时候都是分隔开的,也方便对数据的监控。

4.数据加密

数据加密很容易理解,也是很早就有的技术了。简单来说,加密技术就是通过一些变换算法,把原本的数据处理成不可读或者没有意义的数据,只有加密人本身知道如何将加密后的数据还原。

之前去平遥古城,那里的日升昌票号是中国第一家银行,他们的汇票就已经在采用加密技术,比如把 1 到 12 个月用文字“谨防假票冒取,勿忘细视书章”进行替代。

对于不同安全等级的数据,我们可以采用不同等级的加密技术,同时在数据的传输和存储环节也有不同的加密方案。加密技术是一门涉及很广的课程,现代密码技术一般分为对称加密和非对称加密,如果对这方面感兴趣的同学可以去学习一下密码学。

5.数据备份

数据备份主要是防止发生大面积的网络问题、数据丢失情况,以及人为破坏或者自然灾害等不可以预料的问题。针对不同安全等级的数据,我们也可以采取不同的备份策略,比如对于安全级别高的数据采取实时的多存储方案,对于低安全级别的数据定期进行备份等。

6.数据脱敏

数据脱敏一般是对数据监控环节进行的。对于安全级别较高的数据可以认为是敏感数据,比如说用户的姓名、手机号等,但是在数据传输或者使用过程中,往往会跟其他部分混杂在一起。在对数据的流转进行监控的过程中,如果发现涉及敏感数据,可以对数据进行替换、隐藏等等操作,以防止敏感数据泄露。这种方案一般是针对数据对外开放的时候采取的措施。

7.分享水印

针对数据分享时候的安全问题,除了脱敏还可以采用水印技术。不管是内部的可视化平台,还是对于可分享的文件、图片或者 PPT 等资源,统一加入水印来标记。在一些公司分享的资料中,你经常会看到一些可见的水印标记,当然,对于数据也可以加入一些隐藏水印,达到安全防护的作用。水印技术虽然不能防止数据泄露,但是能够通过水印追踪负责人,属于一种事后手段。

除了这里所讲到的技术手段,公司在面对数据安全问题的时候,还需要配合管理手段来建立一套比较完善的数据安全管理机制,对公司内的人员进行宣传教育,提高大家的防范意识,并且在数据生产、数据存储、数据传输、数据应用等环节进行事前的保障、事中的监控、事后的追踪。

个人如何注意隐私保护

虽然说公司在内部通常都会注意数据安全的问题,但是仍然免不了存在这样那样的问题,导致数据泄露到不法分子的手中。正如我们经常在新闻中看到的那样,2014 年 12306 网站旅客信息泄露;2016 年 12 GB 用户信息泄露;2018 年华住酒店 5 亿条数据被出售。类似的新闻层出不穷,我想在未来的一段时间里,仍然无法完全避免这种事情的发生。对于个人来说,完全不使用大数据相关的产物在这个时代几乎是不可能的,那么该如何注意保护自己的隐私呢?

1.不使用一些来路不明的 App

对于正规公司生产的 App,因为其受到比较严格的监管,一般都会注意数据安全的问题,他们至少不会主动去出卖你的信息,而且一旦你因为他们的问题造成损失,他们需要承担相应的赔偿。但是有很多 App 和一些分享链接的目的就是套取你的信息用于出卖,这类 App 一般都通过个人的方式发布,没有明确的公司名称,平时在下载的时候应该注意区分。

2.对不同等级的 App 使用不同的密码

譬如我可能会把 App 区分成金融类,像支付宝、微信以及银行 App 都属于这一类,直接跟自己的资金账户相关,对这类 App 设置足够复杂且不同的密码,同时使用指纹开锁等加密措施。

对于一些我可能要支付,或者发布信息的 App,比如知乎、豆瓣,则密码可以相对弱一些。

最后一级是纯浏览型的 App,比如抖音、爱奇艺,我只是看上面的东西,对于这类 App 基本上都是使用相同的密码,即便是被盗了也不会对我有什么损失。

3.发布信息注意避免隐私

大数据时代,用户自己发布各种信息变得十分方便,但是你发的这些东西如果不注意,很可能对你造成损失。比如说你彩票中奖了,把彩票发到网上被别人冒领了;或者你把带有身份信息的东西,比如身份证照片发到网上,被人用来注册 App 或者拿来贷款,都是有可能的。所以,发布信息一定要注意区分,如果里面的信息会通过某些联系关联到你,那么就要谨慎了。

4.不贪小便宜

最后一点,也是最重要的一点,不要贪小便宜。一切盗取数据行为的目的都是为了从你这里谋取利益,比如通过你的下单信息给你发短信说要赠送东西,或者告诉你中奖了等等来吸引你的注意力,从而让你落入他的圈套之中。现在很多使用大数据的公司都有比较严格的校验系统,如果你不主动配合,只是使用你的信息,不法分子也很难利用你的信息来牟利,因此一定要注意不贪小便宜,对于各种送上门的东西保持警惕。

总结

这里,我们主要讨论了有关数据安全的问题以及应对数据安全问题都有一些什么样的技术方案。大数据体系虽然很好,给我们的生活带来了很多便利,但是它带来的安全威胁同样十分巨大,不管是在建设大数据体系的公司,还是接受大数据福利的个人,都需要对数据安全问题有清醒的认识,做好防范准备和应对措施。最后,我也基于自己的经验讲了一些个人该如何注意隐私保护的方法,虽然说个人在大数据的数据安全方面处于被动的地位,但是采取一些必要的措施,以及注意不要贪小便宜,还是可以把风险降到比较低的状态,希望可以对你有一些帮助。

文章分类
后端
文章标签