态势感知|常用的数据融合技术

296 阅读3分钟

不同厂商的 IDS 告警日志格式不统一,在态势感知中,需要对不同维度的网络安全数据进行融合,所以这里就用到了数据融合技术。

数据清洗

数据清洗: 去除数据集中的噪声数据、不一致的数据、对遗漏数据进行填补等

噪声数据: 数据集中存在错误或异常数据,一般是指偏离期望数值较大的数据。此类数据一般源自设备出现故障、在数据传输过程中出现错误等特殊情况。使用以下数据进行替代或者填充:

  • 均值:相邻两个数据的平均值
  • 回归:对与该数据相邻的一组数据通过线性回归、逻辑回归、多元回归函数进行数据拟合得到对应的拟合数值。
  • 分箱:将数据按照一定的规则放到不同的箱子中,每个箱子的数据采用特定的方法进行处理得到对应的值。
  • 聚类:
  • 相似样本填充:分析该数据与其他数据的相似性,找到最相似的几个数据,取这些数据的均值对其进行替代或者填充

数据集成(多源异构)

数据集成: 将分散在多个数据源中的数据集成为具有统一表达形式的数据。

实体集成: 要统一实体命名,即对不同维度采集的实体名字进行统一,也就是对标识符进行统一。

  • 同义词字典:是将具有相同含义、不同标识符的实体列举出来,通过正则表达式对不同的实体进行统一;
  • 基于知识图谱:是对采集的实体进行向量化,计算出不同实体的关联关系,将含义相近、连接关系相近的实体对齐。

数据格式集成:

系统A定义的流量数据的属性字段有 五元组、P1 总共有 6个属性。系统定义的流量数据的属性字段有 五元组、P2、P3、P4 总共有8个属性。通过对数据格式进行合并的方式,比如变成 五元组、P1、P2、P3、P4 总共有9个属性。

数据自身集成: 对虽然来自不同数据源,但是数据实际上是同一份,这就相当于冗余数据,对于不同数据源采集的数据,如果数据有冲突可以使用平均法、投票法、权重法来处理。

可以根据五元组+时间 来判断是否是冗余数据,但是最好的方式就是过滤掉其中一个设备的数据。

数据规约(降维)

数据规约: 通过对数据进行精简,大幅度减少需要处理的数据,让分析师可以关注更为重要的数据.

  • 样本规约:从完整的数据集中选取具有代表性的样本子集,从而降低数据集规模
  • 特征规约:剔除原始数据集中无关紧要的数据特征
  • 维度规约:维度规约的主要目的是减少分析过程中随机变量或属性的个数。常用的维度规约方法包括
    • 小波变换
    • 主成分分析方法

数据变换(展示方式)

数据变换 将数据从一种表示形式变换为另一种更利于分析的表示形式,从而为网络安全态势感知提供更有效的数据表示形式。

  • 聚类:将数据分为不同的类别,为分析师提供更加高层的数据属性
  • 离散:将原始的连续型数据变换为多个区间的离散型数据。
  • 泛化:用更抽象、更高层次的概念等表示形式替换更具体的数据
  • 可视化:将数据用图表的形式展示出来能有助于分析师对于数据的整体分析