什么是模型衰减,模型漂移?

837 阅读7分钟

礼貌。图片由作者提供(Canva)。

什么是模型衰变?

术语 "模型衰减 "指的是机器学习中的一种现象,即随着时间的推移,模型的预测变得不那么准确。其根本原因是,由于基础环境的变化,数据会随着时间的推移而变化。

什么是模型漂移?

模型漂移,也被称为模型衰减,是指机器学习模型的性能随着时间的推移而逐渐退化。当模型突然或逐渐开始提供比训练期间更低精度的预测时,就会发生这种情况。

模型漂移的类型?

确实有两种类型的模型漂移。

A.概念漂移

概念漂移的一个例子是,当输入变量和目标变量之间的关系发生变化(目标变量的统计属性改变).这意味着我们的模型试图预测的内容的定义发生了变化,导致预测不准确。这种差异可能是渐进的、突然的、或反复的。

  • 突发性漂移。由于俄乌战争,消费者行为和供应链管理发生了巨大的变化。例如,由于石油和燃料价格,进口成本上升了25%,而由于战争导致的高通货膨胀,商品和服务的支出下降了10%。基于战前数据的需求预测模型不可能预测消费者习惯的这些变化。
  • 渐进式漂移。 渐进式概念漂移的一个例子是欺诈行为的变化。随着欺诈检测方法越来越先进和复杂,欺诈者开发出新的策略来逃避欺诈检测系统。由于构成欺诈的内容发生了变化,根据历史欺诈交易数据训练的机器学习模型将无法将新策略归类为欺诈。因此,该模型将表现不佳,因为欺诈的定义已经随着时间的推移而改变。
  • 经常性的漂移。季节性的概念也可以被称为一种经验现象。例如,零售业的销售额在圣诞节或黑色星期五期间明显增加。一个不考虑这些已知的经常性趋势的机器学习模型在这些时期会产生不准确的预测。

B.数据漂移

数据漂移的一个例子是当 一个或多个预测因子的统计属性发生变化.这意味着我们的模型试图预测的内容的定义发生了变化,导致了不准确的预测。像概念漂移一样,这种变化可以是渐进的,突然的,或反复出现的。

本篇文章的重点是概念和数据漂移检测策略。我们的目标是研究检测单变量和多变量特征转变之间的区别。我们将其与单变量的情况进行比较,以证明为什么在某些情况下,后者可能不足以提醒数据漂移。此外,我们介绍了一种使用混合方法的可解释的多变量漂移检测方法。

概念与数据漂移?

让我们看看下面的一些图表,了解在我们试图用2015年到2018年的数据来预测能源价格的情况下会发生什么。

提供。作者的图片(概念漂移)

提供。作者提供的图片(概念漂移)

在单变量漂移中,当独立变量在分布上出现重大变化时,就会记录下分布上的重大差异。每个特征都被单独监测,其分布随时间推移而被监测。将新的观察结果与过去的观察结果进行统计比较,可以直接进行。因此,很容易沟通和充分理解单变量检测。

提供。作者提供的图片(每一年都用列表示)

数据漂移(多变量漂移)发生在输入数据之间的关系发生变化时。多变量漂移检测在解释上可能更具挑战性;然而,克服单变量检测的限制往往是必要的。

我们能通过相关矩阵识别数据漂移吗?

好吧,相关矩阵可以让你了解预测者之间的关系从训练集到测试集是如何变化的,但它并不能准确地提供漂移的来源和程度。

礼貌。图片由作者提供(训练相关)。

礼貌。作者提供的图片(测试相关)。

化石生成(使用图表)。

由作者提供。作者提供的图片(火车组中的化石生成)

由作者提供。作者提供的图片(测试组中的化石生成)。

生物量的产生(使用图示)

由作者提供。作者提供的图片(火车组中的生物量生成)。

由作者提供。作者提供的图片(测试组中的生物量生成)

识别预测因子之间的数据漂移可能相当具有挑战性,这些独立特征的概率分布之间的差异可能是微不足道的。因此,我建议先看一下在模型预测中权重最高的特征之间的差异。

在此链接到笔记本。

怎样才能减轻模型的漂移?

监测模型的性能

在处理模型漂移之前,你必须能够在它给终端用户造成重大困难之前发现它。因此,你必须确定你的模型性能指标,并根据这些指标持续监测模型的性能,如果你想通过机器学习算法取得长期的成功。关于不同指标和方法的更多信息,请参考我们关于模型监控的文章。

专门的模型监控工具和提供模型监控功能的MLOps平台可以在我们关于MLOps工具的文章和我们的数据驱动的MLOps平台列表中找到。

调整模型

如果仅仅因为模型习惯了历史数据集中呈现的模式,重新训练是不够的,也可以重建模型。你可能需要用各种特征、超参数和模型架构进行多次实验,以更新你的模型来反映新数据。

重新训练模型

如果一个概念或数据发生漂移,你可以用最新的数据重新训练你的模型。根据漂移的性质,可以使用不同的方法。

  • 只有在旧数据已经过时的情况下才使用最近的数据。
  • 如果旧数据不会导致不准确的预测,则使用所有可用的数据。
  • 当部署的模型允许加权时,使用所有可用的数据,但给最近的或新的数据分配更高的权重,使模型产生对历史数据较少的关注。

此外,还可以进行在线学习,即数据馈送不断实时更新模型。这将使模型能够与不断变化的数据集保持相关性。

检查数据质量

与其说是概念或数据漂移,快速的性能变化可能是由训练数据质量问题造成的,如数据偏差。当你在真实世界的环境中应用你的模型时,这种情况就会变得很明显。请查看我们关于人工智能中的偏见的文章,了解解决偏见的方法。

例如,谷歌健康开发了一个深度学习模型,用于根据患者的眼睛扫描检测视网膜疾病。在其训练阶段,该模型达到了90%的准确率,但在现实生活中却未能准确执行。因此,该模型是用高质量的眼睛扫描来训练的,而真实世界的眼睛扫描质量较低。

此外,未能考虑到季节性模式的事实,也会影响你的数据质量。例如,假设你的训练数据没有反映频繁的变化。在这种情况下,在假日季节(如复活节或圣诞节)的零售销售有利可图,这是一个数据质量问题,可以很容易地得到纠正。

如果你喜欢这篇文章,请关注我,了解更多相关内容。另外,欢迎在LinkedIn上与我联系,让我们成为参与网络的一部分。


什么是模型衰减,模型漂移?最初发表在Medium上的Dev Genius,人们通过强调和回应这个故事继续对话。