团伙行为发现
4.2.5.1 定义内涵
团伙行为发现的含义是跨时间周期、跨阶段取攻击、行为事件的行为模式,通过社区挖掘等方法 实现攻击者组织、团伙的定位和划定,进而实现对相关事件的归因和追踪。
4.2.5.2 技术背景
网络空间攻击向着组织化、规模化、武器化、服务化 的方向持续演化。利益驱动下的攻击组织、团 伙控制相对稳定的攻击资源,形成对指定目标的精细化打击。特别是在威胁情报领域,唯有有效定位、 识别攻击组织团伙,才能持续感知攻击方的资源调度与武器演化,以实现对攻击源的定位,以及潜在威 胁的预防。 4.2.5.3 思路方案
攻击团伙发现的关键是基于威胁数据生成关联图与图上社区发现。STIX是 MITRE发起的威胁情报交换语言和标准,在 STIX 2.0体系的促进下,全球威胁情报的共享、关联开销大幅降低。通过情报数 据图的实例化网络图构建,攻击者、IOCs、技战术、恶意软件 、攻击战役及攻击组织等实体及其行为关 联能够统一在一张数据图之中。同时,通过语义规则、统计规则、特征命中等方法,对图上的实体点和 关系边进行特征抽取,以支撑图结构关联之上的细粒度分析。进而,针对情报的数据规模大、点边特征 维度多、置信度差异大等特性,一般采用图社区发现算法实现自动化的团伙标定。社区发现的常用技术 包括基于模块度优化的方法、基于谱分析的方法、基于信息论的方法、基于标签传播的方法及基于深度 学习的方法等等。数据驱动的攻击团伙发现是一种情报或行为数据增强技术,基于动态情报数据的结构 关联性、特征关联,召回疑似团伙、组织,并刻画其行为模式,有助于完善攻击事件的证据链,升情 报置信度。 如图 21 所示,通过构建认证和访问事件行为数据图,在关联图上使用 Louvain 社区发现算法识别 图结构层次的用户、服务设备等实体的网络社区 [27]。进而,识别定位关键的跨团伙社区的访问路径, 来辅助动态策略部署。
4.2.5.4 关键挑战
攻击团伙发现基于经典的图模式挖掘算法,是情报数据精炼取的关键环节之一。虽然基于图的关 联分析有较强的可解释性,易于运营专家理解,但在情报质量、算法实现、效果验证等多个方面存在技 术瓶颈。
情报质量评估
网络空间 威胁情报数据呈现爆炸式增长,在迎来威胁信息共享时代来临的同时,情报质量的管控缺 稍显滞后。在网络对抗的大背景下,情报信息量、情报时效性、情报真实性等因素可导致情报失效甚至 情报污染。在低质情报上构建的分析资源将导致错误的情报推断结果。 统计关联弱相关
攻击团伙的分析不限于图结构的强关联关系,还包括通过特征相似性构建的统计弱相关性。弱相关 性的引入一方面是对情报信息的富化,扩展了情报应用的视角。另一方面,数据本身所含的噪声以及模 型拟合过程的误差,将引入假相关性,这对依赖高置信度情报的应用场景是不可接受的。
团伙证据验证 攻击团伙发现大部分情况下是无标签样本的分析任务,所得团伙标签和行为模式存在难以验证的挑战。因此,需要多维、多源情报,以及企业或组织内部其他数据源的旁证策略,如事件溯源机制、主动 诱捕系统,来支持算法层级的优化和迭代。
因果认知
认知是智能计算的核心环节。从网络安全的场景出发,认知层需要解决事件的因果关系的建模问题, 以供支撑后续决策的上下文信息。主要包括狩猎查询专用语言、攻击意图理解、攻击重构溯源、威胁 情报归因、告警分诊与误报缓解和态势感知与预警等前沿关键技术 。
狩猎查询专用语言
图 22 CyGraph DSL(领域专用语言)[3]
4.3.1.1 定义内涵
狩猎查询专用语言的含义是面向安全运营 威胁狩猎已知信息的高效检索需求,基于融合的情报、行 为、环境、知识数据基础,设计满足实时性、完整性、准确性的数据检索语言及处理引擎,支撑线索的 定位、事件关联信息的召回、情报与知识的准确定位等任务。
4.3.1.2 技术背景
安全运营大数据的存储与检索平台,是支撑运营事件快速推理、响应、报告的重要技术设施。数据 的检索性能,决定了情报关联、事件溯源、脆弱性定位、策略选择等环节时效性的上限。现阶段,包括 结构化数据库、非结构化数据库等类型存储基础设施已成为智能安全分析平台的主要组成部分。虽然基 于多种类型数据库的数据检索,例如针对图数据库、全文检索数据库等,都有特定的、成熟的检索方案 与语言,但目前仍然缺乏面向运营检索效率提升的、支持威胁语义的、异构数据库关联的一体化检索方案。 这其中最关键的技术环节,就是针对威胁狩猎场景的领域专用语言(Domain Specified Language, DSL)设计。
4.3.1.3 思路方案
威胁狩猎专用查询语言的设计的关键在于业务驱动的定制语义、语法以及支撑结果查询的匹配算法。 语义、语法的设计的驱动力是威胁狩猎的关键场景,需要支撑包括不同数据源(如外部威胁情报、内部 关键线索等)以及不同模式(精确匹配与模式匹配)的组合查询问题。DSL一般是声明式的独立抽象层, 安全运营场景下最直接的构建基础是融合的知识图框架。基于安全领域知识图图谱,结合其本体化设计 与层次化实体交互行为,设计针对指定任务的抽象查询语法。经典的语言设计方案包括如图 22 所示的 基于 Cygraph 的 CyQL (CyGraph Query Language)[3]、IBM 的 τ-calculus 等。在匹配算法方面,一方 面可直接将 DSL直接编译为底层数据库查询语言,直接调用数据库内置匹配算法进行数据查询;另一 方面,可通过子图对齐与相似性匹配、图神经网络、表示学习等方法,基于分析算法,从大规模数据中 查询攻击模式、关联线索。
4.3.1.4 关键挑战
威胁狩猎是主动防御的重要环节,根据线索,快速、准确的关联信息查询,是提升狩猎效率的关键。 DSL的设计既有科学又有艺术性,针对网络安全场景,主要挑战包括:
查询语言的灵活性
图数据库已成为威胁狩猎领域的数据库新宠。目前,简单的利用图数据及其内置查询语言进行威胁 信息的定位,一方面数据模式过于扁平,难以满足威胁检测、模式识别、意图抽象等多层次的不同查询 目的;另一方面,强于结构关系查询,弱于时序依赖查询。这两方面是构建更灵活的威胁狩猎查询专用 语言有待解决的关键问题。
分析的效率与准确性
数据查询的底层模式匹配算法,是查询结果有效性的关键基础。底层数据库成熟的匹配算法之外, 针对高层次威胁狩猎任务的实际需求,越来越多的分析模块集成到数据库之中,包括在线表示学习、定 制化相似度计算与路径搜索、可解释图神经网络等等,这些模块在升分析准确性、多样性的同时,给 传统的数据查询任务带来更大的计算开销。分析能力的实现需要充分根据业务场景优化分析算法与分析 架构,以满足最基本的查询实时性要求。