【译】视觉化的偏差-差异评论作者：Theodore Tsitsimis，机器学习科学家偏差-变异权衡是机器学习的一个

作者：Theodore Tsitsimis，机器学习科学家

偏差-变异权衡是机器学习的一个基本概念。在这里，我们将从一些不同的角度来探讨这种权衡的真正含义，并借助于可视化的方式。

现实生活中的偏差-变异

我们的很多决定都会受到他人的影响，当观察他们的行为并将自己与他们进行比较时（通过一些社会相似性指标）。同时，我们保持着自己的一套规则，这些规则是我们通过经验和推理学习的。在这种情况下。

偏见是指我们有非常简单的规则，而这些规则并不能真正解释现实生活中的情况。例如，认为通过观看Youtube视频就能成为一名医生。
差异性是指我们总是通过听不同的人群和模仿他们的行为来改变我们的想法。例如，当你看到有人在健身房里身材好，锻炼后吃蛋白棒，你认为蛋白棒是你也需要的。然后你听别人说他们买了一些健身器材，帮助他们增长肌肉，你就马上去买同样的机器。

权衡的观点

Bias-Variance很经常被称为一种权衡。当谈论权衡时，我们通常指的是有2个（或更多）相互竞争的数量的情况，其中加强一个的结果是减少另一个，反之亦然。一个著名的例子是强化学习中的探索-利用权衡，增加探索因子（如ε-贪婪）会导致代理减少利用已经估计的高价值状态。

另一方面，偏差-变异是一个相当的分解。它表明，回归模型的预期测试误差（平均平方误差）可以分解为3个项：方差、偏差和不可减少的误差（由于噪声和内在的可变性）。

Equation %20=%20Bias%20+%20Variance%20+%20IrreducibleError)

然而，与你可以直接控制2个竞争量的探索-开发权衡相比，偏倚和方差并不是你可以随便拉动的控制误差的杠杆。这只是测试误差的另一种写法，偏倚和方差是从这种分解中出现的。

但为什么它被称为权衡呢？灵活的模型往往有低偏差和高方差，而更僵硬的模型往往有高偏差和低方差。模型的灵活性是你可以控制的（正则化、参数数量等），因此可以间接地控制偏倚和方差。

偏倚-方差的简单术语

我们在Bishop的《模式识别与机器学习》中读到，偏倚-方差分解是试图通过对从同一分布中采样的多个数据集运行学习算法来模拟预测的不确定性的结果。并得出结论。

偏差项表示所有数据集上的平均预测与期望的回归函数不同的程度。
方差项衡量的是单个数据集的解决方案围绕其平均值变化的程度，因此这衡量的是所学函数对数据集的特定选择的敏感程度。

"通过检查 "拟合

让我们把一些背景（和图表）放在这里。考虑下面的一维数据集，该数据集由函数##生成，并受到一些高斯噪声的扰动。

如果我们想在这些点上拟合一个多项式呢？

我们可以看一下这个图，在退后一步并把眼睛眯起来之后，我们可以画出一条近似穿过所有点的线（就像图中的红线）。然后我们观察到，对于高和低的x值来说，y值趋向于+无穷大（如果你用力眯起眼睛的话），这给我们一个提示，它应该是一个偶数度的多项式。然后我们看到，这些点与x轴相交4次（4个实数根），这意味着它应该是一个至少4度的多项式。最后，我们观察到图形有3个转折点（从增加到减少或反之），再次表明我们有一个4度的多项式。

通过 "眯起眼睛"，我们基本上做了某种噪音平滑处理，以看到 "更大的画面"，而不是数据集的小的和不相关的变化。

然而，我们怎么能确定这确实是正确的选择呢？

只要抛出一个1000度的多项式，看看会发生什么

既然我们不能确定最能近似基础过程的多项式的度数，或者我们只是太无聊而无法估计它，我们可以直接使用我们能想象到的最 "复杂 "的模型来拟合这些点。为了验证这个论点，我们拟合了多个度数增加的多项多项式，看看它们的表现如何。

在每种情况下，一半的点（圈出的）被用于训练。很明显，低度的模型（左边）不能有足够的曲线和弯曲度来适应数据。7度的多项式似乎在各点之间优雅地通过，似乎它可以忽略（平滑）噪音。更有趣的是，高度多项式（右）试图通过各点进行插值，并在某种程度上实现了这一点。但这是我们想要的吗？如果给我们一组不同的训练点，会发生什么？预测结果和回归曲线的形状会改变吗？

下面，对不同的数据子集重复进行同样的拟合，并将得到的曲线叠加起来，以检查它们的变化情况。在7度多项式的情况下，结果似乎相当一致。

该模型对训练集的变化是稳健的，只要它们是从输入空间均匀采样的。

现在是30度多项式的相同图示。

对于不同的训练集，预测值似乎会上下震荡。这样做的主要影响是，我们不能相信这样的模型的预测，因为如果偶然有一组稍微不同的数据，对同一输入样本的预测可能会发生变化。

为了更好地说明这个论点，下面的图显示了在单个测试点（在这种情况下是x=7）上评估时3个模型的预测分布。

虚线是函数在x=7处的真值。

这就是随机森林®的作用

上图中高阶模型的绿色分布表明，对于不同的数据集，预测结果差别很大。这不是该模型的一个好属性，因为它对小的数据集扰动不稳健。但是请注意，分布的平均值对实际目标的预测非常好，甚至比7度模型的平均值（红色分布）更好。对数据集的多次实现进行平均化（bagging）是一个有益的程序，可以克服过度拟合和差异。这实际上是随机森林（Random Forests®）所做的，并且在大多数情况下无需过多调整就能得到相当好的结果。

希望这种可视化的方法能够帮助人们更清楚地了解偏差-变异是如何影响模型性能的，以及为什么许多模型的平均化能够带来更好的预测结果。

**生物。Theodore Tsitsimis**是一位机器学习的科学家。他目前在一家咨询公司工作，利用数据和机器学习为不同行业解决商业问题。他拥有雅典国立技术大学电子和计算机工程学院的学士和硕士学位，在那里他进行了机器人学的研究。

相关的。