10-11（1.1 例：多项式曲线拟合）然而，就目前而言，继续使用当前的方法并考虑在实践中如何将其应用于我们可能希望使用

然而，就目前而言，继续使用当前的方法并考虑在实践中如何将其应用于我们可能希望使用相对复杂和灵活的模型有限规模的数据集是有指导意义的。在这种情况下，经常用于控制过拟合现象的一种技术是正则化，这涉及到在误差函数（1.2）中添加一个惩罚项，以组织系数达到较大的值。这类最简单的惩罚项对所有的系数取一个平方的形式，导致形式的修正函数

\widetilde{E}(w)=\frac{1}{2}\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{\lambda}{2}||w||^2\tag{1.4}

其中 $||w||^2\equiv w^Tw=w_0^2+w_1^2+...+w_M^2$ ，与平方和误差相比，系数 $\lambda$ 控制正则化想的相对重要性。请注意，通常正则化器中会忽略系数 $w_0$ ，因为它的包含会导致结果取决于目标变量的原点选择，或者可以包含系数 $w_0$ ，但包含其自身的正则化系数（我们将在第5.5.1节中更详细地讨论此主题）。同样，（1.4）中的误差函数可以在闭合形式下精确地最小化。此类技术在统计学文献中被称为收缩法，因为它们降低了系数的值。二次正则化器的特殊情况称为岭回归。在神经网络的上下文中，这种方法称为权重衰减。

Figure 1.7

图 1.7 使用正则化误差函数（1.4）对与 $\ln\lambda=-18$ 和 $\ln\lambda=0$ 。在没有正则化的情况下 $\lambda=0$ ，对应于 $\lambda=-\infty$ ，如图1.4右下角所示。

图1.7显示了将 $M=9$ 阶多项式拟合到以前相同的数据集的结果，但现在使用（1.4）给出的正则化误差函数。我们看到，对于 $\ln=-18$ ，过拟合被抑制，我们现在得到了基本函数 $\sin(2\pi x)$ 的更接近的表示。然而，如果我们对 $\lambda$ 使用了太大的值，那么我们再次得到了一个很差的拟合，如图1.7中 $\ln\lambda=0$ 所示。表1.2给出了拟合多项式的相应系数，表明正则化具有降低系数大小的预期效果。

Table 1.2.png

表 1.2 $M=9$ 多项式的系数 $w^*$ 的表，正则化参数 $\lambda$ 的值不同。注意 $\ln\lambda=-\infty$ 对应于没有正则化的模型，即图1.4右下角的曲线图。我们看到，随着 $\lambda$ 的值增加，系数的典型大小变小。

正则化项对泛化误差的影响可以通过绘制训练集和测试集的均方根误差（1.3）值与 $\ln\lambda$ 的对比图来看出，如图1.8所示。我们发现，实际上 $\lambda$ 现在控制了模型的有效复杂性，从而决定了过拟合的程度。

模型复杂性问题是一个重要的问题，将在第1.3节中详细讨论。这里我们只需注意，如果我们试图使用这种最小化误差函数的方法来解决实际问题，我们必须找到一种方法来确定模型复杂性的合适值。上述结果提出了一种实现这一点的简单方法，即将可用数据划分为用于确定系数 $w$ 的训练集和用于优化模型复杂性（ $M$ 或 $\lambda$ ）的单独验证集（也称为保持集）。然而，在许多情况下，这将证明对宝贵的培训数据过于浪费，我们必须寻求更复杂的方法。

到目前为止，我们对多项式曲线拟合的讨论在很大程度上依赖于直觉。我们现在通过讨论概率论来寻求一种更具原则性的方法来解决模式识别中的问题。除了为这本书中几乎所有的后续的发展提供基础，它还将给我们在多项式曲线拟合的CON文本中引入的一些重要的见解，并允许我们将这些概念扩展到更复杂的情况。

Figure 1.8

图 1.8 $M=9$ 多项式的均方根误差（1.3）与 $\ln\lambda$ 的关系图。