时间序列预测误差度量：尺度相关与相对误差深度解析深入探讨时间序列预测中的高级误差度量方法，包括相对误差(Relative

预测误差度量：尺度相关、相对误差及其他

继上一篇关于标准绝对误差、平方误差和百分比误差的博客之后，让我们来看看时间序列预测的替代方案——尺度相关误差、相对误差及其他度量方法。

预测误差度量的分类

尺度误差和相对误差都属于外在误差度量。它们依赖于另一个参考预测来评估自身。在实际应用中，这个参考预测通常是朴素预测或季节性朴素预测。除了这些误差，我们还将探讨如"百分比更好"、累积预测误差、跟踪信号等度量。

相对误差

当我们说"相对误差"时，主要有两种计算方式，Shcherbakov 等人将其分别称为相对误差和相对度量。

相对误差：使用参考模型的预测作为基准来比较误差。
相对度量：使用参考基准模型的某个预测度量来计算误差。

相对误差的计算公式如下： 相对误差 = (当前模型误差) / (参考模型误差)

类似地，相对度量的计算公式为： 相对度量 = MAE(当前模型预测) / MAE(参考模型预测) 其中 MAE(当前模型预测) 是当前预测的平均绝对误差，MAE(参考模型预测) 是参考预测的MAE。这个度量实际上可以是任何误差指标，不限于MAE。

相对误差基于一个参考预测，虽然最常用的是朴素预测，但并非总是如此。例如，如果我们有一个想要超越的现有预测，或者开发周期中定义的基线预测，都可以作为参考。

这种方法的一个明显缺点是，当参考预测完全等于真实值时，该度量将无法定义（分母为零）。这种情况可能发生在非常稳定的时间序列或间歇性序列中，因为真实值可能重复出现，导致朴素预测恰好等于真实值。

尺度误差

尺度误差由 Hyndman 和 Koehler 于 2006 年提出。他们建议基于样本内的朴素预测方法的MAE来对误差进行缩放。也就是说，不使用前一个时间步的真实值作为缩放因子，而是使用整个序列的平均绝对误差作为缩放因子。

尺度误差_t = 误差_t / (1/(n-1) * Σ|真实值_i - 真实值_{i-1}|)

其中 误差_t 是时间步 t 的误差，n 是时间序列的长度，真实值_i 是时间步 i 的真实值。分母是滞后一阶差的平均绝对值。对于季节性数据，可以使用滞后季节性周期的差分，例如对于12个月的季节性，可以使用 (1/(n-12)) * Σ|真实值_i - 真实值_{i-12}|。

这里选择样本内MAE是因为它总是可用的，并且与样本外估计相比，对尺度的估计更可靠。

实验分析

在上一篇博客中，我们检查了尺度依赖性、对称性、损失曲线、过度/不足预测以及离群值的影响。但这次，我们处理的是相对误差。因此，绘制损失曲线不再那么容易，因为存在三个输入：真实值、预测值和参考预测，度量的值可能随三者变化而变化。不过，我们仍然可以检查过度/不足预测和离群值的影响。

损失曲线

损失曲线以等高线图的形式绘制，以适应三个维度：误差、参考预测和度量值。

我们可以观察到，误差围绕误差轴是对称的。如果保持参考预测不变而改变误差，度量值在误差的两侧是对称的。这并不奇怪，因为所有这些误差都基于绝对误差，而我们已经知道绝对误差是对称的。

但有趣的是对参考预测的依赖性。相同的误差值，根据参考预测的不同，会导致不同的相对绝对误差值。

相对绝对误差的3D损失函数图 我们也可以在曲线的3D图中看到同样的不对称性。但尺度误差在这里有所不同，因为它不直接依赖于参考预测，而是依赖于参考预测的平均绝对误差。因此，它具有良好的绝对误差对称性，并且对参考预测的依赖性非常小。

过度与不足预测

在过度与不足预测的实验中，我们重复了上次的相同设置*，但针对四种误差度量：平均相对绝对误差(MRAE)、平均绝对尺度误差(MASE)、相对平均绝对误差(RMAE)和相对均方根误差(RRMSE)。

*有一个小改动：我们添加了一个小于1的随机噪声，以确保连续的真实值不相同。因为在真实值相同的情况下，相对度量将无法定义。

我们可以看到，这些尺度误差和相对误差不存在偏向过度或不足预测的问题。低预测和高预测的误差条（表现）同样差。即使在基础误差偏向其中之一的情况下（例如MAPE），相对误差度量（RMAPE）也能减少这种"偏向"，使误差度量更加稳健。

我们注意到的另一件事是，平均相对误差具有巨大的离散范围（为了图表可读，实际进行了缩放）。例如，基准RMAE的中位数为2.79，而基准MRAE的最大值为42000。这种巨大的离散范围表明，平均绝对相对误差的可靠性较低。根据样本的不同，误差变化很大。这可能部分是由于我们使用参考预测的方式造成的。如果真实值过于接近参考预测（此处为朴素预测），误差将会大得多。这个缺点可以通过使用中位数相对绝对误差(MdRAE) 来部分解决。

离群值影响

为了检查离群值的影响，我们重复了上一篇博客中针对MRAE、MASE、RMAE和RRMSE的相同实验。

其他误差度量

除了这些标准的误差度量外，还有一些更定制化的度量，用于处理我们目前所见的度量未能充分覆盖的预测方面。

百分比更好(PB)

在我们目前看到的所有度量中，只有MAPE我认为对非技术人员是可解释的。但正如我们所看到的，MAPE并不具备最好的属性。所有其他度量都不能直观地说明预测的好坏。"百分比更好"是获得这种可解释性的又一次尝试。

百分比更好也依赖于一个参考预测，并通过统计当前模型预测误差优于参考预测误差的实例数量来衡量我们的预测。

例如： PB = (1/N) * Σ I(MAE_t < MAE_t^*) 其中，当 MAE_t < MAE_t^* 时 I = 1，否则 I = 0，N 是实例总数。

类似地，我们可以将其扩展到任何其他误差度量。这让我们直观地了解我们比参考预测好多少。它也对离群值具有相当的抵抗力，因为它只计数实例，而不测量或量化误差的大小。

这也是一个关键的缺点：我们只衡量我们做得更好的次数，而不衡量我们做得好多少或差多少。如果我们的误差比参考误差小50%或1%，对PB分数的影响是一样的。

归一化RMSE (nRMSE)

归一化RMSE旨在消除RMSE的尺度依赖性。基本思想是将RMSE除以一个标量，例如整个序列的最大值、最大值与最小值的差、或所有真实值的均值等。

由于除以最大值或最大值与最小值的差容易受到离群值的影响，通常使用均值进行归一化： nRMSE = RMSE / mean(真实值)

累积预测误差（又称预测偏差）

到目前为止，我们看到的所有误差都侧重于惩罚误差，无论正负。我们使用绝对值或平方项来确保误差不会相互抵消，从而描绘出比实际情况更美好的图景。

但是，这样做也使我们忽视了预测中可能存在的结构性问题。如果我们 consistently 过度预测或不足预测，这是我们应该意识到并采取纠正措施的。然而，我们目前所见的度量都没有关注这个角度。

这就是预测偏差的作用所在： 预测偏差 = (Σ(预测值 - 真实值)) / Σ(真实值)

虽然它看起来像百分比误差公式，但关键在于没有使用绝对值。因此，没有绝对值项，我们累积真实值和预测值，并将它们之间的差异测量为百分比。这提供了一个直观的解释：如果我们看到5%的偏差，可以推断总体而言，我们低估了5%。根据使用的是真实值 - 预测值还是预测值 - 真实值，解释会有所不同，但本质相同。

如果跨多个时间序列进行计算，我们也可以在所测量的任何数据切片上累积真实值和预测值，然后计算预测偏差。

总结

让我们将现在看到的误差度量添加到上次制作的汇总表中。

度量	尺度依赖	对称性	对过度/不足的偏好	离群值影响	可解释性	可靠性	对变化的敏感性
MAE/RMSE	是	是	无	高	低	低	高
MAPE/sMAPE	否	否	有（偏向低预测）	高	高	中	高
MRAE/RMAE/RRMSE	否	是	无	极高	低	中	高
MASE	否	是	无	中	低	未知	高
MdRAE	否	是	无	低	低	高	低
Percent Better	否	-	无	低	高	高	低
Forecast Bias	否	-	衡量方向	中	高	-	-

再次强调，没有一个度量是万能的。根据具体情况可能会有不同的选择，我们需要针对特定目的进行挑选。

选择预测指标的经验法则和指南

我们已经看到，仅仅选择一个预测指标并在任何地方都使用它并不容易。每个指标都有其自身的优缺点，我们的选择应该考虑到所有这些。

话虽如此，还是有一些经验法则可以在选择过程中提供帮助：

如果所有时间序列都在同一个尺度上，使用MAE、RMSE等。
如果时间序列中存在巨大变化（即在我们测量的范围内，时间序列水平发生了巨大变化），那么可以使用像"百分比更好"或相对绝对误差这样的度量。
在跨时间序列进行汇总时，对于像"百分比更好"或APE这样的度量，可以使用算术平均值（例如MAPE）。对于相对误差，经验证明几何平均值具有更好的属性。但同时，它们也容易受到离群值的影响。我们可以通过以下几种方法来控制离群值：
- 修剪离群值：将其从汇总计算中丢弃。
- 使用中位数进行汇总（例如MdAPE）是控制离群值的另一种极端措施。
- 缩尾处理（用截止值替换离群值）是处理此类巨大个体误差的另一种方法。

关于泛化预测方法的误差度量：实证比较 [2]

Armstrong 等人于1992年利用M竞赛对预测指标进行了广泛研究，抽样了5个子样本，共包含90个年度序列和101个季度序列及其预测。然后他们计算了这些样本的误差度量，并进行了一项研究来检验它们。

他们检验不同度量的关键维度是：

1. 可靠性 可靠性指的是重复应用该度量是否会产生相似的结果。为了衡量这一点，他们首先计算了所有5个子样本（汇总层面）上不同预测方法的误差度量，并按性能排序。他们对年度和季度序列分别进行了1步和6步预测的评估。

然后，他们计算了每个子样本对的斯皮尔曼等级相关系数，并取其平均值。例如，将子样本1的排名与子样本2的排名进行比较，然后是子样本1与子样本3，等等，直到覆盖所有对，然后取平均。

来源：Armstrong et al. 基于RMSE的排名可靠性最低，相关系数非常低。他们认为，只有当混合的时间序列数量足够多，可能中和掉这种影响时，使用RMSE才能克服可靠性问题。

他们还发现，像"百分比更好"和MdRAE这样的相对度量比它们的同类具有更高的可靠性。他们还尝试计算了达到与"百分比更好"相同统计显著性所需的样本数量：GMRAE需要18个序列，MdRAE需要19个，MAPE需要49个，MdAPE需要55个，而RMSE需要170个。

2. 结构效度 可靠性衡量一致性，而结构效度问的是：一个度量是否确实衡量了它想要衡量的东西。这向我们展示了各种度量在多大程度上评估了预测方法的"准确性"。为了比较这一点，他们像以前一样检查了预测方法的排名，但这次是比较成对误差度量之间的排名。例如，基于RMSE的排名与基于MAPE的排名有多大程度的一致？

来源：Armstrong et al. 这些相关性同时受到结构效度和可靠性的影响。为了解释可靠性的变化，作者通过使用更多样本得出了相同的表格，发现平均相关性如预期的那样从0.34增加到0.68，表明这些度量确实在衡量它们应该衡量的东西。

来源：Armstrong et al. 作为效度的最终测试，他们通过对90个年度序列和1010个季度序列的完整样本，取每个误差度量排名的平均值，构建了一个共识排名，然后检查每个单独误差度量排名与共识排名的相关性。

来源：Armstrong et al. RMSE与共识的相关性最低。这可能是由于其低可靠性，也可能是因为RMSE强调较大误差。

百分比更好也显示出低相关性（尽管它具有高可靠性）。这可能是因为百分比更好是唯一不衡量误差大小的度量。

3. 敏感性 期望误差度量对变化的影响敏感，特别是对于参数校准或调优。当模型参数发生变化时，度量应能指示对"准确性"的影响。

中位数误差度量不敏感，"百分比更好"也不敏感。中位数聚合通过关注中间值来隐藏变化，并且只会缓慢变化。百分比更好不敏感，因为一旦序列表现得比参考好，它就不再在指标上产生任何进一步的变化。它也不衡量我们是否将一个极其糟糕的预测改进到了一个几乎和朴素预测一样准确的程度。

4. 与决策制定的关系 该论文明确指出，他们所评估的度量中没有一个对决策制定是理想的。他们提出RMSE是一个足够好的度量，并对基于百分比的误差持否定态度，理由是实际业务影响是以金额衡量的，而不是百分比误差。但我不同意这一点，因为当我们客观地评估一个预测以传达其表现好坏时，RMSE根本不够格。如果我走到高层管理人员面前说财务预测的RMSE是22343，这会让人摸不着头脑。但相反，如果我说准确率是90%，大家都会高兴。

我和论文都同意一点：相对误差度量与决策制定的相关性不高。

选择误差度量的指南

为了帮助选择误差，该论文还对它们所确定的各个维度上的不同度量进行了评级。

来源：Armstrong et al.

对于参数调优：论文建议使用在敏感性上评级高的度量之一——RMSE、MAPE和GMRAE。并且由于RMSE的低可靠性和MAPE偏向低预测的问题，他们建议使用GMRAE（几何平均相对绝对误差）。MASE是在这篇论文发表很久之后才提出的，因此它没有出现在这些分析中。但仔细想想，MASE也很敏感，并且不受RMSE或MAPE所遇到的问题的影响，可以成为校准的一个很好的候选者。
对于预测方法选择：在选择预测方法之间时，主要标准是可靠性、结构效度、对离群值的防护以及与决策制定的关系。敏感性在这种情况下不那么重要。论文直接否定了RMSE，因为其可靠性低且缺乏对离群值的防护。当序列数量较少时，他们建议使用MdRAE，它与GMRAE一样可靠，但提供了额外的离群值防护。给定中等数量的序列，可靠性变得不那么重要，在这种情况下，MdAPE 可能是一个合适的选择，因为它与决策制定的关系更密切。

结论

在这两篇博文中，我们了解了许多预测度量，并理解了每个度量的优缺点。最后，我们得出了一些在选择预测度量时可以遵循的经验法则。虽然不是结论性的，但我希望它能为你做这些决策时提供一个方向。

但所有这些讨论都是基于一个假设：我们预测的时间序列是稳定且平滑的。然而，在现实世界的业务案例中，也有很多序列是间歇性或零散的。我们在非零需求出现之前会看到很长的零需求期。在这种情况下，几乎所有的误差度量（可能MASE除外）都会失效。在下一篇博文中，让我们看看一些适用于间歇性需求的不同度量。

实验的 GitHub 链接： github.com/manujosephv…

更新 - 2020-10-04 经过进一步阅读，偶然发现了一些对MASE的批评，并认为也应该在此提及。

有批评指出，使用参考预测的平均MAE作为缩放误差项，会引入对参考预测准确性的高估偏差。换句话说，对糟糕预测的惩罚变得大于对良好预测的奖励 [3]。
另一个批评源于均值不是一个非常稳定的估计量，可能会被少数大值所左右。
Davidenko 和 Fildes [3] 展示的另一个有趣事实是，MASE 等同于加权算术平均的相对MAE，其中可用误差值的数量是权重。

本系列的其他文章

预测误差度量：通过实验理解它们
预测误差度量：尺度相关、相对误差及其他 (本文)
预测误差度量：间歇性需求

参考文献

Shcherbakov et al. 2013, 预测误差度量综述
Armstrong et al. 1992, 用于泛化预测方法的误差度量：实证比较
Davidenko & Fildes. 2013, 衡量预测准确性：以SKU级需求预测的判断性调整为例FINISHED