基于聚类分析与爬虫技术的Web安全漏洞智能检测随着互联网技术的飞速发展，Web应用的复杂性和用户量不断增长，Web安全问

0x00 引言随着互联网技术的飞速发展，Web应用的复杂性和用户量不断增长，Web安全问题也日益凸显。跨站脚本攻击（XSS）、SQL注入等安全漏洞频繁发生，对Web应用的安全构成了严重威胁。因此，如何高效、准确地检测Web应用的安全漏洞成为了一个重要的研究课题。聚类爬虫算法作为一种新兴的Web漏洞扫描技术，以其独特的优势在这一领域展现出了广阔的应用前景。

网络扫描技术是实现网络安全的重要保障，利用此技术对目标的网络环境、操作系统和Web应用进行扫描，可以做到提前发现、提早预防，从而消除或者降低漏洞所带来的安全隐患，保障系统正常工作。

聚类爬虫算法概述

聚类爬虫算法是一种基于网络爬虫的漏洞扫描技术，它结合了数据挖掘和机器学习的思想，通过模拟用户的浏览行为，自动抓取和分析Web应用的页面信息，发现潜在的安全漏洞。与传统的漏洞扫描工具相比，聚类爬虫算法具有更高的自动化程度和更强的漏洞发现能力。

Web应用漏洞扫描模块在进行Web应用扫描时，往往是针对一个网站，并对该网站内的所有页面进行检测。同源网站的网页结构会存在大量相似的情况，且网页内表单结构也比较相似，重复的检测并不能发现新的漏洞，所以这就给Web应用扫描增加了很多重复且无用的工作。

针对上述重复且无用的检测工作，提出了一种基于URL去重和以网页相似度为基础的聚合式层次聚类的智能爬行算法。该算法能有效去除重复的URL和大量结构相似的网页，在保障准确率的前提下，最大程度缩小测试目标，提高检测效率。

在深度爬虫的基础上，应用智能爬行算法的爬虫定义为聚类爬虫。聚类爬虫的爬取过程是：以一个初始URL为起点爬取相关的所有网页，然后利用智能爬行算法爬取网站，最后得到无重复的URL，且URL对应的网页结构都是不相似的。系统所采用的智能爬行算法，首先对URL去重丢弃重复的URL。下一步利用页面相似度公式依次计算两个URL对应页面的相似度值，具体是将页面解析成DOM树，根据节点的位置、DOM树的深度以及深度相同的节点数量，将权重平均分配给每个节点，再根据给定的公式计算网页的相似度。最后以相似度为基础，使用聚合式层次聚类思想将具有相似结构的网页聚为一组，只选取代表URL进行后续测试。

聚类爬虫算法的计算过程分三个阶段。第一阶段对爬取到的URL去重；第二阶段对网页解析并计算网页相似度；第三阶段将相似度满足设定阈值的网页进行聚类，并选取代表URL进行后续检测。如下图所示：

图 1 智能爬行算法过程图

将聚类爬虫应用到Web应用扫描器中，进行迭代优化，相比于原爬虫可有效大幅去除结构相似网页，减少大量相同表单的重复检测，提高扫描效率。

参考OWASP TOP 10，基于聚类爬虫的Web扫描包含65项检查：30个主动和35个被动，主动检查通过提交请求和分析回应来积极探测漏洞。被动检查要么查找可疑的文件和文件夹，要么被动监视Arachni和应用程序之间的流量。基于聚类爬虫的Web扫描可以审计格式为JSON或XML的表单，用户界面表单，用户界面输入，Cookie，标题，通用客户端元素，AJAX请求参数和请求数据。生成的报告是交互式的，包含所有漏洞的摘要和详细信息，包括图表和OWASP Top 10分类等。

漏洞态势分析是指通过获取网络系统中的漏洞信息、拓扑信息、攻击信息等，分析网络资产可能遭受的安全威胁以及预测攻击者利用漏洞可能发动的攻击，构建拓扑漏洞图，展示网络中可能存在的薄弱环节，以此来评估网络安全状态。

在网络安全形势日益恶化的今天，如何快速有效地获取网络系统的安全状况、提高网络安全应对水平、增大网络安全的预警时间，成为网络空间安全领域研究的重要问题。网络漏洞态势感知研究存在的问题是缺乏有效的网络漏洞势数据采集和要素提取方法，使得网络资产漏洞态势的理解和分析计算难以进行。针对这一研究现状，提出一种基于拓扑漏洞分析的网络安全态势感知模型，从网络漏洞态势数据获取入手，通过网络资产漏洞态势要素的获取、理解和分析处理，采用形式化的方式描述获取要素及其关联关系，计算网络系统安全态势值，实现网络资产漏洞态势感知。模型的结果易于理解，优化了传统的纯数值表示，与实际结果更相符。

1）拓扑漏洞分析

拓扑漏洞分析为网络安全态势感知的“态势识别”“态势理解”和“态势展示”提供了技术支持，是通过对网络系统中漏洞间依赖关系和网络攻击路径的分析，获知网络系统安全态势的一种方法，也是实现网络安全防御的一项技术。拓扑漏洞分析由三个部分组成：信息获取、信息理解和信息展示。

（1）信息获取，是采用扫描或者探测的手段获取网络系统中拓扑漏洞分析所需信息的方法。根据获取信息对象的不同，拓扑漏洞的信息获取方法可分为面向主机的拓扑漏洞分析方法和面向网络系统的拓扑漏洞分析方法。

（2）信息理解，是对获取的网络信息采用拓扑漏洞分析的方法进行处理，包括信息现状分析和信息状态转换处理。

（3）信息展示，是对信息理解分析结果的图形化展示和对网络系统安全状况调整的建议。

网络漏洞态势感知是对所收集的网络资产漏洞态势信息融合分析、计算理解，判断网络资产漏洞态势状况并对漏洞态势进行预测。网络漏洞态势感知包括资产漏洞信息的获取、识别、确认和评估，不论是漏洞态势的获取和识别还是漏洞态势的确认和评估，都需要相应的理论和方法。拓扑漏洞分析技术的“信息获取”“信息理解”和“信息展示”为解决网络漏洞态势感知的获取、识别、确认和评估提供了技术支持。因此，利用拓扑漏洞分析技术的“面向主机”和“面向网络系统”的信息获取方法，获取网络资产漏洞态势信息，通过对获取的漏洞态势信息提炼和分析，能够得到网络资产漏洞态势感知态势理解所需的参数，为态势理解提供支持；利用拓扑漏洞分析技术中的态势信息分析计算、安全状态描述、网络系统安全评估、网络系统安全威胁预测的方法，对网络资产漏洞态势感知中的漏洞状况进行理解、评估和预测。

2）漏洞态势感知建模

要获取网络资产漏洞态势，就需要对网络系统的安全状态信息数据进行分析、处理，因此需要建立网络资产漏洞态势感知模型。模型用于感知网络资产漏洞态势，应解决两个问题：态势要素的分析处理和态势值的计算。对获取的要素分析处理时需要描述要素之间的状态转换关系，掌握要素信息及其关联关系；态势值的计算是在状态分析处理的基础上，针对当前及可能发生的状态，计算态势值，明确漏洞态势，因此所建立的网络资产漏洞态势感知模型是一个基于拓扑漏洞分析的态势感知模型。

基于拓扑漏洞分析的漏洞态势感知模型是通过两个步骤实现：第一步状态建立。对网络系统采用面向网络的拓扑漏洞分析方法得到拓扑要素、配置要素、漏洞要素和攻击要素，规格化形成状态，作为输入，采用拓扑漏洞分析技术中信息状态转换处理方法，利用有限状态机的形式化表示方法建立状态语义、输出语义及状态转换规则。第二步态势理解。以状态建立结果为输入，采用拓扑漏洞分析技术中信息理解方法，建立公式计算网络中威胁存在概率、状态转移概率和威胁损失等数据，得到态势值。

第一步：状态建立

状态建立是建立有限状态机描述漏洞态势，即建立漏洞态势有限状态机。漏洞态势包括网络中当前状态和可能发生的状态。

漏洞态势来源于规格化的态势信息，即当前漏洞状态包括拓扑结构、配置，可能发生状态是指漏洞攻击状态。由于网络受到自身原因或者外界干扰会导致漏洞态势发生改变，所以网络中状态会发生转移，因此使用有限状态自动机对形成的状态进行分析描述。态势有限状态机包括三个：拓扑结构有限状态机、配置状态有限状态机和漏洞攻击有限状态机。

定义态势有限状态机（Situation Patulous Finite State Machine,SPFSM）是扩展的有限状态机，用六元组表示：

SPFSM=（S,I,s0,F,T,δ）（1）

S={s0，s1，…，sn }，状态的集合，表示在任意时刻，有限状态机只能处于一个确定的状态。对拓扑结构、配置和漏洞攻击描述时，将存在不同的状态，具体状态语义如下图所示：

图 2 语义解释

I：输入集合，网络系统中拓扑、配置、漏洞攻击等安全状态。

s0：初始状态，即当前由拓扑、配置、漏洞攻击等组成的网络安全状态。

F：结束状态，表示所有可作为状态分析终点的状态。

T：输出集合，表示态势发生改变可能导致的变化或者空输出（无变化）。

拓扑结构、配置和漏洞攻击因状态转移将产生不同的输出，具体输出语义如下图所示：

图 3 语义解释

δ=S×I→S是转移函数，由当前状态和输入决定，通过状态转移规则产生相应的状态转移。拓扑结构、配置和漏洞攻击由于当前状态和输入不同，状态转移规则也不同。

拓扑结构有限状态机(Topology Elements Finite State Machine，TEFSM)是一个用式（1）定义的网络安全有限状态机，描述网络系统拓扑状态的变化。其中：S、I、s0、F、T与网络安全有限状态机的定义相同。δ是拓扑结构有限状态机的状态转移规则，简称拓扑状态转移规则，用于描述转移函数，定义不同状态发生转移的条件，包括初始状态、结构变化状态、节点信息状态和节点联系状态、结束状态之间的相互转移。

拓扑状态转移规则如下：

在某拓扑结构状态下，当网络系统拓扑结构未发生变化，而IP地址改变OutP_IP时，初始状态迁移到节点信息状态St_Node。

当检测到拓扑结构变化，即输出拓扑变化产生拓扑结构变化OutP_Structure，从初始状态St_Initial转移到结构变化状态St_Structure。

当处于结构变化状态St_Structure，若有节点增加或者减少，节点数目变化OutP_Node，将转移到节点信息状态St_Node。

当处于结构变化状态St_Structure，若有节点联系增加或者减少，节点联系变化OutP_Link，将迁移到节点联系状态St_Link。

当处于节点信息状态St_Node，若节点增加或者减少，则导致节点联系变化OutP_Link，将迁移到节点联系状态St_Link。

当处于节点信息状态St_Node，若IP地址改变OutP_IP，将状态迁移到自身。

当处于节点信息状态St_Node，若无具体信息变化产生OutP_Invalid，将状态迁移到结束状态St_End。

当处于节点联系状态St_Link，若无具体信息变化产生OutP_Invalid，将状态迁移到结束状态St_End。

拓扑结构有限状态自动机TEFSM状态之间的转移图，如下图所示：

图 4 转移图

配置状态有限状态机(Deployments Finite State Machine，DEFSM)是一个用式（1）定义的网络安全有限状态机，描述网络系统配置状态的变化其中：S、I、s0、F、T与式网络安全有限状态机的定义相同。δ是配置状态有限状态机的状态转移规则，简称配置状态转移规则，用于描述转移函数，定义不同状态发生转移的条件，包括初始状态、配置变化状态、端口状态、服务状态、操作系统状态、软件版本状态和结束状态之间的相互转移。

配置状态转移规则如下：

在某配置内容状态下，当网络配置发生变化OutP_DeployD，将从初始状态Dt_Initial迁移到配置变化状态Dt_Deploy。

当处于配置变化状态Dt_Deploy，若端口开放或者关闭，导致端口数目变化OutP_PortD，将从配置变化状态Dt_Deploy迁移到端口状态Dt_Port。

当处于端口状态Dt_Port，若由于端口开放关闭导致开放服务的增加或者减少，将导致服务开放变化OutP_ServiceD，从端口状态Dt_Port迁移到服务状态Dt_Service。

当处于配置变化状态Dt_Deploy，若之间出现服务的开放或者关闭，将从配置变化状态Dt_Deploy迁移到服务状态Dt_Service。

当处于服务状态Dt_Service，若无具体信息变化产生OutP_InvalidD，将状态迁移到结束状态Dt_End。

当处于配置变化状态Dt_Deploy，若出现操作系统更OutP_OSD，将从配置变化状态Dt_Deploy迁移到操作系统状态Dt_OS。

当处于操作系统状态Dt_OS，由于操作系统版本变化导致软件版本变化OutP_EditionD，将从操作系统状态Dt_OS迁移到软件版本状态Dt_Edition。

当处于软件版本状态Dt_Edition，若无具体信息变化产生OutP_InvalidD，将状态迁移到结束状态Dt_End。

当处于配置变化状态Dt_Deploy，若出现软件版本变化OutP_EditionD，将从配置变化状态Dt_Deploy迁移到软件版本状态Dt_Edition。

配置状态有限状态自动机DEFSM状态之间的转移图，如下图所示：

图 5 转移图

漏洞攻击有限状态机(Leak Elements Finite State Machine，LEFSM)是一个用式（1）定义的网络安全有限状态机，描述网络系统安全状态的变化。其中：S、I、s0、F、T与式（1）网络安全有限状态机的定义相同。δ表示状态转移规则，简称漏洞攻击状态转移规则，用于描述转移函数，定义不同状态发生转移的条件，包括初始状态、漏洞变化状态、主机状态、漏洞利用后果状态和结束状态等状态之间的相互转移。

漏洞攻击状态转移规则如下：

在某漏洞攻击状态下，当漏洞状态发生变化OutP_ChangeL，将从初始状态Lt_Initial迁移到漏洞变化状态Lt_Change。

当处于漏洞变化状态Lt_Change，若漏洞所在主机发生变化OutP_HostL，将从漏洞变化状态Lt_Change迁移到主机状态Lt_Host。

当处于主机状态Lt_Host，若由于主机的变化导致漏洞利用后果发生改变OutP_AfterL，将从主机状态Lt_Host迁移到漏洞利用后果状态Lt_After。

当处于漏洞利用后果状态Lt_After，若无具体信息变化产生OutP_InvalidL，将状态迁移到结束状态Lt_End。

当处于漏洞变化状态Lt_Change，若对漏洞采用不同的利用方式产生不同的漏洞利用后果发生改变OutP_AfterL，将从漏洞变化状态Lt_Change迁移到漏洞利用后果状态Lt_After。

当处于主机状态Lt_Host，若无具体信息变化产OutP_InvalidL，将状态迁移到结束状态Lt_End。

在某漏洞攻击状态下，当攻击状态发生变化OutP_ChangeA，将从初始状态Lt_Initial迁移到攻击变化状态Lt_ChangeA。

当处于攻击变化状态Lt_ChangeA，若漏洞的攻击发起主机发生变化OutP_HostA，将从攻击变化状态Lt_ChangeA迁移至攻击源状态Lt_HostA。

当处于攻击源状态Lt_HostA，通过检查发现由于攻击发起主机改变，导致攻击前提改变OutP_PreA，将从攻击源状态Lt_Hos迁移至攻击前提状态Lt_Pre。

当处于攻击前提状态Lt_Pre，由于攻击前提发生改变，导致漏洞利用后果状态改变OutP_AfterL，将从攻击前提状态Lt_Pre迁移至漏洞利用后果状态Lt_After。

当处于攻击变化状态Lt_ChangeA，若攻击发起主机未变，但攻击前提发生改变OutP_PreA，将从攻击变化状态Lt_ChangeA迁移至攻击前提状态Lt_Pre。

当处于攻击变化状态Lt_ChangeA，若攻击发起主机未变，但攻击利用漏洞改变OutP_UseA，将从攻击变化状态Lt_ChangeA迁移至漏洞利用状态Lt_Use。

当处于漏洞利用状态Lt_Use，由于漏洞改变，攻击前提条件随之改变OutP_PreA，将从漏洞利用状态Lt_Use迁移至攻击前提状态Lt_Pre。

当处于漏洞利用状态Lt_Use，由于漏洞改变，导致漏洞利用后果状态改变OutP_AfterL，将从漏洞利用状Lt_Use迁移至漏洞利用后果状态Lt_After。

当处于攻击源状态Lt_HostA，若攻击利用漏洞改变OutP_UseA，将从攻击源状态Lt_HostA迁移至漏洞利用状态Lt_Use。

漏洞攻击有限状态自动机LEFSM状态之间的转移图，如下图所示：

图 6 转移图

第二步：态势理解

态势理解是指在获取态势信息数据的基础上，通过分析计算状态建立的结果，获取态势，计算威胁存在概率、威胁状态概率、威胁损失等态势组成值，综合得出态势，计算结果以数值形式呈现。

威胁存在概率：指通过网络安全态势信息获取，得到某种漏洞、攻击或者威胁存在的可能性，用I表示。威胁存在概率与获取到与该威胁的相关的态势信息In及其权重wn相关，结合DS证据理论，可得威胁存在概率计算公式，公式表明威胁存在概率I与态势信息In成正比，且权重越大的对结果影响越大。

威胁状态概率：指通过网络安全态势信息获取，得到已经发生的攻击在网络安全状态转移图中处于某个中间状态的可能性，用C表示。威胁状态概率由威胁存在概率、攻击相关度共同决定，威胁存在概率越大，受到同一攻击的可能性越大，则该节点处于越有可能威胁的状态。

攻击相关度：指两个或者多个攻击信息之间的相关程度，用rel(x，y)表示。攻击相关度与信息获取时确定的特征关联度和权重有关，特征关联度越大，则权重越大，则x，y受到同一攻击的可能性越大。

威胁损失：指网络系统某个漏洞或者攻击影响，处于该状态时将带来的损失，用L表示。威胁损失L采用通用漏洞评分系统(Common Vulnerability Scoring System，CVSS)进行赋值。

网络安全态势分析计算，采用先局部后整体、自下向上的原则，通过分析计算网络系统中设备态势组成值，分类累加得到整个网络系统的安全态势值。

网络安全态势值：表示网络系统受威胁的程度，其值是用0～1的数字表示。

网络安全态势值的计算步骤如下：

（1）计算设备态势组成值，将攻击状态概率C、状态转移概率E与当前状态对应的威胁损失L相结合，得到该状态下设备的态势值D：

D=C·E·L

（2）当设备在同一状态下受到多个攻击时，则该状态下设备的态势值Ac需要进行累加。计算公式如下所示，其中i为受到攻击数：

Ac=∑_(i=1)^d▒D_i

（3）依据设备的态势组成值，考虑设备重要程度不一样，分别加以权重赋值，得到整个态势值WAc：

WAc=∑_(i=1)^d▒〖Ac〗_i ∙w_i

这里需要说明的是，态势值反映了网络受攻击威胁的程度，势值越大越容易受到威胁，网络的安全性越低。态势值与网络实际受威胁的程度间的对应关系如下图所示：

图 7 态势值与网络威胁程度说明