作者:鹏飞(坏牙崩克)美团安全部数据安全负责人,负责集团旗下全线业务的数据安全保护。 相信很多企业都面临数据泄漏的问题,例如用户投诉注册后收到了很多骚扰电话,内部员工频繁接到到猎头电话骚扰,业务上的竞争对手准确地掌握了公司的经营数据动态等。而这些泄漏事件的追查难度又非常大。如下图,用户的一个购买行为,沿途可能经过若干路径,每个路径下面又包含N多分叉。最终交易成功,可能会被几百个服务调用,这些服务同时又对应到后台,最终可能有几千人会看到,究竟是谁泄漏了,如同大海捞针。
按照数据安全生命周期理论,从数据采集、传输、存储、处理、交换和销毁去评估和保护,这一路下来,成本非常高。在大型企业里,业务种类可能上万种,而且每天都在发生变化,如果严格按照这个理论去套现实,成本非常巨大,实现可能性也很小。对于业务复杂度较高的企业,迫切需要新的方法来指导。所以业界也出现了一些其他的理论,例如“以数据为中心的安全”、“数据安全治理模型”等。本文不准备变成一个纯理论的研究,而是谈一谈在实践中的数据安全。
思路的逻辑上,我们将数据安全分为四个阶段,分别是识别、保护、检测、响应。识别是为了发现重点,进而对其进行保护,很多公司的数据安全可能就到此为止了。但其实更核心的检测领域,由于难度大、成本高、误报多,往往流于形式浮于表面,做一些看起来炫酷的大盘,业界近年来提到的SIEM、UEBA,实际落地情况差强人意,就是现状的一种体现,检测领域需要重度深入到风险场景,深入刻画,反复训练,精准识别。而在响应领域,则需要对黑灰产有认知,建立多方沟通渠道,响应方向是对自己防护和检测能力的验证,每一个真实case后面,都反映着一连串的现存问题,通过响应手段,避免安全人员自嗨。
0x00 识别
面对大规模复杂系统,更需要快速的识别出重点。传统上的数据安全领域,识别的认知是在敏感数据层面,但对于敏感行为、敏感人群做的不多。这会导致不够聚焦,管控面太大以至于被淹没,难以突出高风险重点。用风险来驱动安全建设,能够快速抓住重点,且得到业务方的积极配合。- 敏感数据识别
定义之后则是技术上能够自动发现敏感数据及其流转,这里分为两层,一是数据的位置,二是数据类型的识别。在海量数据的状态下,需要多维度的发现能力,而不仅仅是在数据库层面进行识别。汇总则形成数据地图类产品,掌握数据资产的分布,对敏感数据进行标记跟踪,为后面的防护提供基础。

- 特权操作识别
- 敏感人群识别
0x01 数据保护
数据保护层则主要由若干防护组件组成,互联网企业数据保护参见赵彦《互联网企业数据安全体系建设》https://tech.meituan.com/2018/05/24/data-security-system-construction.html和《互联网公司数据安全保护新探索》https://tech.meituan.com/2018/05/20/data-security-protection-new-exploration.html,这里不再赘述,主要谈一下实践上一些注意事项。- 数据收口

- 指标收敛
业界有一些同学用安全能力覆盖作为核心指标,笔者认为不可取。安全能力是手段,而降低风险才是目标。
- 业界对标
0x02 检测
检测能力是数据安全的核心,也是数据驱动数据安全的一个落地性体现。其主要框架如下图:
很多同学可能一眼看出来,这是一个UEBA(用户实体行为分析)。通过分析检测数据中人类行为的模式,实现威胁洞察。其特点在于关注人、设备、行为,通过关联分析、基线模型、罕见度等模型发现风险。最底层是基础数据,基础数据的来源可以有很多,传统意义上的DLP、流量数据之外,增加了设备和业务操作维度的大量数据,这些数据能够提供更广阔的风险分析点。这一层的难点是数据如何采集、高质量的清洗,从而简化成本、统一数据口径。这是一个基础工作,取决于数据治理的程度。
上面一层是特征提取,目的是多维组合,减少明细,可为上层各模型快速使用。这里需要将各种变量提前计算,并且提供快速的组合能力,这部分主要是以风险为导向做变量。
再上层则是各类模型,通过各种模型计算出“异常”。业界UEBA厂商经常会说一个例子,用户在夜间大量查看了数据,且远高于同组其他人群,且以前不这样,因此是风险。如果按照这个逻辑,互联网公司每天都有海量风险,安全人员完全被淹没。因为互联网公司业务变化极快,很有可能夜间在加班准备数据,这只是一个异常,而不是风险。需要有更多的维度来证实风险,例如该人员已经提出离职,明天last day,同时该设备出现在员工常驻地1000公里以外等等,这些逻辑叠加到一定程度,才能够确认风险。模型的意义在于算出某些场景下的异常,多个异常才组成真正的风险。
而真正的风险,才会被暴露出来进入工单。一旦进入工单,则需人工介入闭环。因此需要满足高风险、高精确、证据确凿的条件。这一层还有一个角度,是从情报出发,反向溯源调查,特征和模型的提取,能够为溯源提供快速反查能力。如果没有,则说明风险场景需要扩张,简单说,数据不够。
更上层则提供可视化功能,为风险提供整体大盘,包括风险趋势、误报率、闭环时长,提供数据下钻功能等。
下图则是技术框架,更详细的内容可见笔者的另一篇《UEBA架构设计之路1-10》。
0x03 响应
响应环节有一些应急、止损的动作,这部分属于常规,本文也不再赘述。主要说一下情报驱动。- 反自娱自乐
- 情报是点,自我闭环
- 情报来源
- 情报运营
0x04 建设节奏
- 盘点风险—风险量化—关注核心
- 分阶段建设
三阶段:这阶段的特征是智能&震慑。检测能力具备自适应,且能够对攻击者进行画像和人员定位打击。防护上开始针对业务进行特性化,并能够对多数风险主动拦截。响应上严重事件极少发生,消费者有对安全信心,且在红蓝对抗的情况下经过长期演练。这个阶段则代表进入了国内领先甚至国际一流水平。
团队介绍
美团安全部的大多数核心人员,拥有多年互联网以及安全领域实践经验,很多同学参与过大型互联网公司的安全体系建设,其中也不乏全球化安全运营人才,具备百万级IDC规模攻防对抗的经验。安全部也不乏CVE“挖掘圣手”,有受邀在Black Hat等国际顶级会议发言的讲者,当然还有很多漂亮的运营妹子。目前,美团安全部涉及的技术包括渗透测试、Web防护、二进制安全、内核安全、分布式开发、大数据分析、安全算法等等,同时还有全球合规与隐私保护等策略制定。我们正在建设一套百万级IDC规模、数十万终端接入的移动办公网络自适应安全体系,这套体系构建于零信任架构之上,横跨多种云基础设施,包括网络层、虚拟化/容器层、Server 软件层(内核态/用户态)、语言虚拟机层(JVM/JS V8)、Web应用层、数据访问层等,并能够基于“大数据+机器学习”技术构建全自动的安全事件感知系统,努力打造成业界最前沿的内置式安全架构和纵深防御体系。随着美团的高速发展,业务复杂度不断提升,安全部门面临更多的机遇和挑战。我们希望将更多代表业界最佳实践的安全项目落地,同时为更多的安全从业者提供一个广阔的发展平台,并提供更多在安全新兴领域不断探索的机会。
一个广告


