【Concept Drift】概念漂移---知识过时

4 阅读3分钟

概念过时

简单来说,模型学到的“知识”过时了,原本学到的特征与标签之间的关联消失或者弱化了。

概念漂移的核心在于模型所学的映射关系发生了变化

方面解释
通俗定义模型学到的“知识”过时了。 模型在训练时学到的输入数据(特征)与输出结果(类别)之间的关系,随着时间推移发生了变化。
变压器例子变压器老化导致“正常”的概念漂移: 训练模型时,“正常”的变压器热图平均温度是 T1T_1。但变压器运行 5 年后,由于长期损耗和绝缘老化,即使变压器没有故障,其“正常”状态下的热图平均温度可能已经漂移到了 T2T_2 (T2>T1T_2 > T_1)。如果模型没有更新,它会把 T2T_2 误判为轻微故障
影响概念漂移是导致长期运行的 AI 诊断模型准确率随时间下降的根本原因。模型变得越来越不适应当前的运行环境和设备状态。

发生形式

类型描述通俗例子
真实概念漂移 (Real Concept Drift)**$P(YX)$ 改变:** 特征和标签之间的关系真的改变了。 这是最常见的,也是最难处理的。
虚拟概念漂移 (Virtual Concept Drift)P(X)P(X) 改变: **特征自身的分布改变了,但 $P(YX)$ 没变。**(分类规则没变,但输入数据的样子变了)

具体实例

变压器应用中的具体发生机制 设备老化,样本输入的不同/设备高温正常状态被误判(映射发生偏移)等。下面这些因素是无法避免的

触发机制影响的特征和概念导致的结果
设备老化绝缘材料、油和金属部件的物理化学性质随时间衰减。故障的临界阈值(如温度、气体含量)降低。模型将旧的正常状态判为新故障
环境季节变化环境温度、湿度、风速等。变压器运行温度的基线周期性波动。模型可能在夏天把所有变压器都判为高温异常,而冬天则相反。
负载/运行模式变化电网的负荷曲线、使用频率、电能质量等。工作状态的定义发生变化。过去的高峰负荷现在可能变成了常态负荷。
传感器漂移/更换采集数据的传感器元件精度退化或被替换。导致数据采集的系统性偏差(虚拟漂移),模型看到的输入数据失真。

对模型的影响

会直接导致模型性能衰减(Model Decay)的:

  • 过时信息:模型的训练是从过去的样本数据中提取的特征学习训练的;那此时发生了变化,
    • 如同,旧地图 来导航新的变化的世界,这样必然会导致大量的误判/误报/漏报。
  • 边界模糊:模型训练出的分类边界 不再适用于当前数据分布,导致诊断准确率急剧下降。
    • 如,区分 正常 与短路1匝 的特征界限

解决概念漂移策略

怎么去解决这个问题呢? 既然不可避免,我们也可以采取一些措施尽可能地减少它的影响

  • 漂移检测 (Drift Detection): 实时监控模型输出(例如,准确率或错误率),一旦性能持续下降,就触发警报。
  • 模型适应 (Model Adaptation/Updates): 一旦检测到漂移,就用最新的数据对模型进行增量学习(Incremental Learning)或定期重新训练(Periodic Retraining)。
    • Trans-Light 的价值: 该框架的轻量化设计,就是为了让这种模型更新(Model Updates)过程变得更加快速和经济,从而能够更灵活、更频繁地适应概念漂移。

reference thesis

# A lightweight deep learning framework for transformer fault diagnosis in smart grids using multiple scale CNN features