(Page:9-12) 1.1 多项曲线拟合

180 阅读3分钟

  然而在目前的情况下,继续使用当前的方法是有益的,并考虑如何在实际中将其应用到有限大小的数据集,在这里我们可能希望使用相对复杂和灵活的模型。在这种情况下,经常用于控制过拟合现象的一种技术是正则化技术,它涉及在误差函数(1.2)中添加惩罚项,以阻止系数达到最大值。最简单的此类惩罚采用系数的平方和形式,导致形式为

E~(w)=12n=1N{y(xn,w)tn}2+λ2w2(1.4)\widetilde{E}(w)=\frac{1}{2}\sum^N_{n=1}\{y(x_n,w)-t_n\}^2+\frac{\lambda}{2}||w||^2\tag{1.4}

其中w2wtw=w02+w12+...+wM2||w||^2\equiv w^tw=w^2_0+w^2_1+...+w^2_M,系数λ\lambda控制正则化项相对于平方和误差项的相对重要性。请注意,通常正则化器中会忽略系数w0w_0,因为它的包含会导致结果取决与目标变量的原点选择(Hastie et al.,2001),或者可以包含系数w0w_0,但包含其自身的正则化系数(我们将在5.5.1节中更详细的讨论此主题)。同时,(1.4)中的误差函数可以在闭合形式下精确的最小化。这类技术在统计学文献中被称为收缩方法,因为他们减少了系数的值。二次正则化器的特殊情况称为岭回归(Hoerl 和 Kennard, 1970)。在神经网络的上下文中,这种方法称为权重衰减。

figure 1.7 使用正则化误差函数(1.4)拟合图中所示数据集的M=9M=9多项式的曲线图,其中正则化参数λ\lambda的两个值对应于lnλ=18\ln\lambda=-18lnλ=0\ln\lambda=0。在没有正则化子的情况下,i.e,λ=0\lambda=0,对应于lnλ=\ln \lambda=-\infty,如图1.4右下角所示。

figure_1.7.png

Exercise 1.2

  图1.7显示了将M=9M=9阶多项式拟合到以前相同的数据集的结果,但现在使用(1.4)给出的正则化误差函数。我们看到,对于值lnλ=18\ln \lambda=-18,过拟合被抑制,我们现在得到了基本函数sin(2πx)sin(2\pi x)的更接近的表示。然而,如果我们对λ\lambda使用了太大的值,那么我们将再次获得了较差的拟合,如图1.7中lnλ=0\ln \lambda=0所示。表1.2给出了拟合多项式的相应系数,表明正则化具有降低系数大小的预期效果。

table 1.2 M=9M=9多项式的系数w9w^9的表,正则化参数λ\lambda的值不同。注意lnλ=\ln \lambda=-\infty对应于没有正则化的模型,i.e.,图1.4右下角的曲线图。我们看到,随着λ\lambda的值的增加,稀疏的典型大小变小。

table_1.2.png   正则化项对泛化误差的影响可以通过绘制训练集和测试集的均方根误差(1.3)值与lnλ\ln \lambda的对比图来看出,如图1.8所示。我们发现,实际上λ\lambda现在控制了模型的有效复杂性,从而决定了过拟合程度。

figure 1.8 M=9M=9多项式的均方根误差(1.3)与lnλ\ln \lambda的关系图

figure_1.8.png   模型复杂性问题是一个重要的问题,将在第1.3节中详细讨论。这里我们只需注意,如果我们试图使用这种最小化误差函数的方法来解决实际应用,我们必须找到一种方法来确定模型复杂性的合适值。上诉结果提出了一种实现这一点的简单方法,即将可用数据划分为用于确定系数ww的训练集和用于优化模型复杂性(M或λ\lambda)的单独验证集(也成为保持集)。然而,在许多情况下,这将证明对宝贵的培训数据过于浪费,我们必须寻求更复杂的方法。

  到目前为止,我们对多项曲线拟合的讨论在很大程度上依赖于直觉。我们现在通过讨论概率论来寻求一种更具原则性的方法来解决模式识别中的问题。除了为这本书中几乎所有后续的发展提供基础,他还将给我们在多项曲线拟合的背景下引入的一些重要的见解,并使我们能够将这些概念扩展到更复杂的情况。