携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情
泛化性能****
又叫泛化能力,泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。机器学习首要目的是在算法模型的帮助下,学会隐藏在数据集背后规律,然后依据这种规律来处理具有同一规律的训练集以外的数据,并给出合适的输出,概括来说泛化能力就是训练后的机器对与训练集同规律的新数据给出适合输出的能力。****
人们总是希望使自己的模型有优良的泛化能力。通俗所言的「准确」,其实就是误差小。在机器学习领域中,排除人为失误,人们一般会遇到三种误差来源:随机误差、偏差和方差。偏差和方差又与「欠拟合」及「过拟合」紧紧联系在一起。由于随机误差是不可消除的,因此降低偏差和方差就显得至关重要。然而,同时减小方差和偏差却把我带入到死胡同。这就是所谓的偏差-方差-困境(又名偏差-方差-问题)。
偏差-方差-问题(bias–variance problem) 描述了同时最小化两个误差源-偏差和方差而使得监督学习算法超出其训练数据的泛化变得困难的问题。
偏差是学习算法中来源于错误假设的误差。高偏差会导致算法无法模拟输入和输出之间的对应关系(下拟合)。
即:通过学习拟合出来的(即训练结果)结果均值与真实值或规律之间的误差。
方差是来源于对训练数据集中小波动灵敏而引起的误差。高方差导致过度拟合:它模拟训练数据中的随机噪声而不是预期输出。
即:通过(学习)拟合出来的结果自身的不稳定性。(与一般方差定义无二)。
这样看来,同时降低方差与偏差显然是不现实的,因此讨论在偏差和方差之间的权衡(Bias-Variance Tradeoff)对帮助我们得到具有更佳泛化性能的算法模型显得尤为重要。