无监督、可泛化的异常检测方法
一个模型集成,根据其对标记异常的保守程度进行加权,其性能优于先前的方法。
作者:Abishek Sankararaman
2025年7月15日
阅读时长:3分钟
会议信息
ICML 2025
相关出版物
SEAD:流式异常检测器的无监督集成
在当今许多工业和在线应用中,识别实时数据流中的异常(即罕见、意外的事件)至关重要。异常可能指示制造缺陷、系统故障、安全漏洞或其他重大事件。典型的基于机器学习的异常检测系统使用带标签的示例以监督方式进行训练。但在许多在线环境中,数据非常多样,且其分布不断变化,使得收集和标记数据的成本高得令人望而却步。
此外,没有单一的异常检测模型能在所有数据类型上表现最佳。例如,观察到某些异常检测模型对一类客户效果很好,而不同的模型对另一类客户效果很好。但事先并不清楚为给定客户部署哪个模型,因为客户的工作负载经常随时间变化,因此性能最佳的异常检测模型也会随之变化。
在2025年国际机器学习大会(ICML)上发表的论文中,尝试通过一种称为SEAD(流式异常检测器集成)的方法来解决这些问题。SEAD使用多个异常检测模型的集成,因此总能针对每种数据类型采用最佳模型,并且它以无监督方式运行,因此在训练期间不需要带标签的异常数据。它能高效地在线处理流式传入的数据,并动态适应数据的变化。
为了评估SEAD,将其与三个先前的异常检测模型(每个模型有四个超参数设置)以及一个基于规则的方法进行了比较,总共13个基线模型。在15个不同的任务上,SEAD获得了最高的平均排名(5.07)和最低的方差(6.64)。
奖励保守性
SEAD背后的基本洞察是异常是罕见的。因此,SEAD为集成中那些持续产生较低异常分数的模型(或称“基础检测器”)分配更高的权重。由于不同的基础检测器使用不同的评分系统,SEAD根据过去分数的分布将其分数分配到不同的分位数,从而对分数进行归一化。
SEAD架构
为了计算权重,使用了乘法权重更新机制,这是专家系统中的一种标准方法。使用MWU时,每个基础检测器被初始化为一个起始权重。在每一轮结束时,每个基础检测器的新权重是其旧权重乘以学习率乘以该轮输出的归一化异常分数的负指数幂的乘积。
所有基础检测器以此方式更新后,对其权重进行归一化,使其总和为1。通过这个过程,持续输出较大分数的检测器将开始获得较低的权重。这项工作的技术洞察在于,将最初为监督环境提出的经典MWU思想应用于无监督的异常检测环境。
在模型评估过程中,可以看到算法根据输入数据重新加权基础检测器。在一个数据集上,SEAD对两个不同的模型赋予了高权重,这两个模型在测试中包含真正异常数据的阶段都持续识别出了异常。然而,在该阶段之后的干净数据上,其中一个模型继续触发警报,而SEAD迅速降低了其权重。
SEAD测试期间两个模型随时间变化的权重。一旦橙色线对应的模型开始标记假阳性,SEAD迅速降低了其权重。
为了进一步研究SEAD适当加权模型的能力,在集成中的13个模型基础上增加了13个额外算法,这些算法仅随机生成分数。在测试集上,SEAD的准确率仅下降了0.88%,这表明更新算法能够很好地将不可靠的模型快速剔除。
计算效率
像SEAD这样的集成方法的一个缺点是同时运行多个模型会产生计算开销。为了解决这个问题,尝试了一种称为SEAD++的方法,该方法以与其权重成正比的概率随机抽样集成模型的一个子集。与原始SEAD相比,这带来了大约两倍的加速,而准确率损失极小。因此,在计算资源紧张的使用场景中,SEAD++是一种有前景的替代方案。
SEAD代表了流数据异常检测领域的重大进步。通过实时智能地从候选模型池中选择性能最佳的模型,确保了可靠且高效的异常检测。其无监督、在线的特性,结合适应性,使其成为一系列应用中的宝贵工具,为流环境中的异常检测设定了新标准。
研究领域
- 机器学习
标签
- 异常检测FINISHED