（Page:9-12) 1.1 多项曲线拟合然而在目前的情况下，继续使用当前的方法是有益的，并考虑如何在实际中将其应用到

然而在目前的情况下，继续使用当前的方法是有益的，并考虑如何在实际中将其应用到有限大小的数据集，在这里我们可能希望使用相对复杂和灵活的模型。在这种情况下，经常用于控制过拟合现象的一种技术是正则化技术，它涉及在误差函数（1.2）中添加惩罚项，以阻止系数达到最大值。最简单的此类惩罚采用系数的平方和形式，导致形式为

\widetilde{E}(w)=\frac{1}{2}\sum^N_{n=1}\{y(x_n,w)-t_n\}^2+\frac{\lambda}{2}||w||^2\tag{1.4}

其中 $||w||^2\equiv w^tw=w^2_0+w^2_1+...+w^2_M$ ，系数 $\lambda$ 控制正则化项相对于平方和误差项的相对重要性。请注意，通常正则化器中会忽略系数 $w_0$ ，因为它的包含会导致结果取决与目标变量的原点选择（Hastie et al.,2001），或者可以包含系数 $w_0$ ，但包含其自身的正则化系数（我们将在5.5.1节中更详细的讨论此主题）。同时，（1.4）中的误差函数可以在闭合形式下精确的最小化。这类技术在统计学文献中被称为收缩方法，因为他们减少了系数的值。二次正则化器的特殊情况称为岭回归（Hoerl 和 Kennard, 1970)。在神经网络的上下文中，这种方法称为权重衰减。

figure 1.7 使用正则化误差函数（1.4）拟合图中所示数据集的 $M=9$ 多项式的曲线图，其中正则化参数 $\lambda$ 的两个值对应于 $\ln\lambda=-18$ 和 $\ln\lambda=0$ 。在没有正则化子的情况下，i.e， $\lambda=0$ ，对应于 $\ln \lambda=-\infty$ ,如图1.4右下角所示。

Exercise 1.2

图1.7显示了将 $M=9$ 阶多项式拟合到以前相同的数据集的结果，但现在使用（1.4）给出的正则化误差函数。我们看到，对于值 $\ln \lambda=-18$ ，过拟合被抑制，我们现在得到了基本函数 $sin(2\pi x)$ 的更接近的表示。然而，如果我们对 $\lambda$ 使用了太大的值，那么我们将再次获得了较差的拟合，如图1.7中 $\ln \lambda=0$ 所示。表1.2给出了拟合多项式的相应系数，表明正则化具有降低系数大小的预期效果。

table 1.2 $M=9$ 多项式的系数 $w^9$ 的表，正则化参数 $\lambda$ 的值不同。注意 $\ln \lambda=-\infty$ 对应于没有正则化的模型，i.e.，图1.4右下角的曲线图。我们看到，随着 $\lambda$ 的值的增加，稀疏的典型大小变小。

正则化项对泛化误差的影响可以通过绘制训练集和测试集的均方根误差（1.3）值与 $\ln \lambda$ 的对比图来看出，如图1.8所示。我们发现，实际上 $\lambda$ 现在控制了模型的有效复杂性，从而决定了过拟合程度。

figure 1.8 $M=9$ 多项式的均方根误差(1.3)与 $\ln \lambda$ 的关系图

模型复杂性问题是一个重要的问题，将在第1.3节中详细讨论。这里我们只需注意，如果我们试图使用这种最小化误差函数的方法来解决实际应用，我们必须找到一种方法来确定模型复杂性的合适值。上诉结果提出了一种实现这一点的简单方法，即将可用数据划分为用于确定系数 $w$ 的训练集和用于优化模型复杂性(M或 $\lambda$ )的单独验证集(也成为保持集)。然而，在许多情况下，这将证明对宝贵的培训数据过于浪费，我们必须寻求更复杂的方法。

到目前为止，我们对多项曲线拟合的讨论在很大程度上依赖于直觉。我们现在通过讨论概率论来寻求一种更具原则性的方法来解决模式识别中的问题。除了为这本书中几乎所有后续的发展提供基础，他还将给我们在多项曲线拟合的背景下引入的一些重要的见解，并使我们能够将这些概念扩展到更复杂的情况。