第11章回归

本章深入讨论回归的学习问题，其中包括使用数据尽可能的接近预测所考虑的点或项目的正确实值标签。回归是机器学习中的一项常见任务，有着广泛的应用。这就证明了我们对其分析保留的具体章节是正确的。

前几节介绍的学习保证主要集中在分类问题上。这里我们给出了有限和无限假设集回归的推广界。这些学习界中的几个是基于熟悉的Rademacher复杂性概念,这对于描述回归中假设集的复杂性也很有用。另一些是基于为回归量身定制的复杂度组合概念，我们将引入假想维度，这可以看作是VC维度到回归的扩展。基于伪维数的概念，我们描述了一种将回归问题简化为分类并导出泛化界的通用技术。我们提出并分析了几种回归算法，包括线性回归、核岭回归、支持向量回归、Lasso以及这些算法的几种线性版本。我们详细讨论了这些算法的性质，包括相应的学习保障。

11.1回归问题

我们首先介绍回归的学习问题,设 $\mathcal{X}$ 表示输入空间， $\mathcal{Y}$ 表示 $\mathbb{R}$ 的可测子集。在这里我们将采用随机方案，并用 $\mathcal{D}$ 表示 $\mathcal{X} \times \mathcal{Y}$ 的分布。如第2.4.1节所述，确定性场景是一个简单的特殊情况，其中输入点允许目标函数 $f:\mathcal{X} \to \mathcal{Y}$ 删除其它标签。
与所有有监督的学习问题一样，学习者收到一个通过 $\mathcal{D}$ 标记的样本 $\mathcal{S}=((x_1,y_1),...,(x_m,y_m)) \in (\mathcal{X} \times \mathcal{Y})^m$ 绘制的i.i.d。由于标签是实数，因此希望学习者能够准确预测唯一的正确标签或准确预测其平均标签是不合理的。而不是,我们可以要求的它的预测可以很接近正确的预测。这就是回归和分类的关键区别——误差的度量，它基于实值标签预测值与真实或正确标签预测值之间差异的大小，而不是基于这两个值的相等或不相等。我们用 $L:\mathcal {Y} \times \mathcal{Y} \to \mathbb{R_+}$ 表示用于测量误差大小的损失函数。回归中最常用的损失函数是平方损失 $L_2$ ,由 $L (y,y')=|y'-y|^2$ 定义,用于所有 $y$ ， $y'\in \mathcal{Y}$ ，或者，更一般地说，对于某些 $\mathcal{p}\geqslant 1$ 和所有 $y,y' \in \mathcal{Y}$ ,由 $L(y,y')=|y'-y|^p$ 定义了一个 $L_p$ 损失。
给出了一个假设集 $\mathcal{H}$ 的函数映射 $\mathcal{X}$ 到 $\mathcal{Y}$ ,回归问题包括使用带标签的样本 $\mathcal{S}$ 找到一个假设 $h \in \mathcal{H}$ ，该假设 $h \in \mathcal{H}$ 相对于目标 $f$ 具有较小的预期损失或泛化误差 $R（h）$ ：

\qquad\qquad\qquad\qquad\qquad R(h) =\underset {(x,y) \sim \mathcal{D}} \mathbb{E} [L(h(x),y)] \qquad\qquad\qquad\qquad\qquad\qquad(11.1)

如前几章所述， $h \in \mathcal {H}$ 的经验损失或误差用 $\widehat{R}_s(h)$ 表示，并用公式定义，该公式为：

\qquad\qquad\qquad\qquad\qquad \widehat{R}_s(h) \leqslant=\frac{1}{m} \sum_{i=1}^m L(h(x_i),y_i) \qquad\qquad\qquad\qquad\qquad\qquad(11.2)

在 $L$ 为平方损失的常见情况下，这表示样本 $S$ 上 $h$ 的均方误差。

当损失函数 $L$ 有界于某个 $M>0$ 时，对所有 $y,y' \in \mathcal{Y}$ 来说，即 $L(y',y) \leqslant M$ ，或者更严格地表达，对于所有 $h \in \mathcal{H}$ ， $(x,y) \in \mathcal{X} \times \mathcal{Y}$ 来说 $L(h(x),y) \leqslant M$ ,该问题称为有界回归问题。以下章节中给出的许多理论结果都基于该假设。无界回归问题的分析在技术上更为复杂，通常需要一些其他类型的假设。

11.2一般化界限

本节介绍有界回归问题的学习保证。我们从有限假设集的简单情况开始。

11.2.1有限假设集

在有限假设的情况下，我们可以通过直接应用Hoeffding不等式和并集界导出回归的推广界。

定理11.1

设 $L$ 为有界损失函数。假设假设集 $\mathcal{H}$ 是有限的。然后，对于任何大于 $\delta>0$ 的情况，概率至少为1- $\delta$ ，以下不等式适用于所有 $h \in \mathcal{H}$ :

R(h) \leqslant \widehat{R}_s(h)+M \sqrt{\frac{ \log|\mathcal{H|+}\log\frac{1}{\delta}}{2m}}

证明：根据霍夫丁不等式，因为 $L$ 取[0, $M$ ]中的值，对于任何 $h \in \mathcal{H}$ ，以下公式成立:

\mathbb{P}[R(h)-\widehat{R}_s(h)>\epsilon] \leqslant e^{-\frac{2m\epsilon^2}{M^2}}

因此受到工会的约束。我们可以写为：

\mathbb{P}[\exists h \in \mathcal{H}:R(h)-\widehat{R}_s(h)>\epsilon]\leqslant \sum_{h \in \mathcal{H}} {\mathbb{P} [R(h)-\widehat{R}_s(h)>\epsilon] } \leqslant|\mathcal{H}| e^{-\frac{2m\epsilon^2}{M^2}}

将右手边设为等于 $\delta$ ，就得到了定理的陈述。使用相同的假设和相同的证明，可以导出一个双边界：对于所有 $h \in \mathcal{H}$ ，概率至少为1- $\delta$ ,

|R(h)-\widehat{R}_s(h)|\leqslant M \sqrt{\frac{\log|\mathcal{H}|+\log\frac{2}{\delta}}{2m}}

这些学习边界类似于为分类推导的边界。事实上当M=1时，它们与在不一致的情况下给出的分类界限一致。因此，在该上下文中所作的所有注释在此应用相同。特别是较大的样本量 $\mathcal{m}$ 保证了更好的泛化；该界限随着对数 $|\mathcal{H}|$ 的增加而增加，并建议为相同的经验误差选择一个较小的假设集。这是Occams razor回归原理的一个实例。在下一节中，我们将使用Rademacher复杂性和伪维的概念，在无限假设集的一般情况下介绍该原理的其他实例。

11.2.2 Rademacher复杂度界限

这里，我们展示了定理3.3的Rademacher复杂度界如何用于推导 $L_p$ 损失函数族回归的推广界。我们首先给出了相关函数族的Rademacher复杂度的上界。

提案11.2（ $\mu-Lipschitz$ 损失函数的Rademacher复杂性）

设 $L:\mathcal{Y} \times \mathcal{Y} \to \mathbb{R}$ 为非负损失上界 $M$ >0 $（对于所有y,y' \in \mathcal{Y}来说，L（y，y'）\leqslant M)$ ，并且对于任何固定的 $y' \in \mathcal{Y}$ ,对于某些 $\mu$ >0来说， $y \mapsto L(y,y')$ 为 $\mu-Lipschitz$ 。然后，对于任何样本 $S=((x_1,y_1),...,(x_m,y_m))$ ，族 $\cal{G}$ ={ $(x,y)\mapsto L(h(x),y):h \in \mathcal{H}$ }的 $Rademacher$ 复杂度为上界，如下所示:

\widehat{\frak{R}}_s(\cal{G}) \leqslant \mu \widehat{\frak{R}}_s(\mathcal{H})

证明：因为对于任何固定的 $y_i，y \mapsto L（y，yi）$ 是 $\mu-Lipschitz$ ，由 $Talagrand$ 的收缩矩阵（引理，5.7）。我们可以写

\widehat{R}_s(\cal{G})=\frac{1}{m} \underset \sigma \mathbb{E}[\sum_{i=1}^{m}\sigma_i \mathit{L} (h(x_i),y_i)]\leqslant \frac{1}{m} \underset \sigma \mathbb{E}[\sum_{i=1}^{m} \sigma_i \mu h(x_i)]=\mu \widehat{R}_s(\cal{H})

来完成证明。

定理11.3（Rademacher复杂度回归界）

设 $L:\mathcal{Y} \times \mathcal{Y} \to \mathbb{R}$ 是一个非负损失上界， $M>0(L（y，y'） \leqslant M$ 表示所有 $y，y' \in \mathcal{Y}$ ），因此对于任意的 $y' \in \mathcal{Y}，y \mapsto L（y，y'）$ 证明：因为对于任何固定的yi，yhl（y，3i）是u-lipschitz，由Talagrand的收缩矩阵（引理5.7），我们可以写对于某些 $\mu$ >0是（ $\mu-Lipschitz$ ）。

\underset{(x,y) \sim \mathcal{D}} \mathbb{E}[\mathit{L}(x,y)]\leqslant \frac{1}{m} \sum_{i=1}^m \mathit{L}(x_i,y_i)+2\mu \frak{R}_m(\mathcal{H})+M\sqrt{\frac{\log{\frac{1}{\sigma}}}{2m}}

\underset{(x,y) \sim \mathcal{D}} \mathbb{E}[\mathit{L}(x,y)]\leqslant \frac{1}{m} \sum_{i=1}^m \mathit{L}(x_i,y_i)+2\mu \frak{R}_m(\mathcal{H})+3M\sqrt{\frac{\log{\frac{2}{\sigma}}}{2m}}

证明：因为对于任何固定的证明： $y'，y \mapsto L（y，y_i）$ 是 $\mu-Lipschitz$ ，由 $Talagrand$ 的收缩矩阵（引理5.7），我们可以写

\widehat{R}_s(\cal{G})=\frac{1}{m} \underset \sigma \mathbb{E}[\sum_{i=1}^{m}\sigma_i \mathit{L} (h(x_i),y_i)]\leqslant \frac{1}{m} \underset \sigma \mathbb{E}[\sum_{i=1}^{m} \sigma_i \mu h(x_i)]=\mu \widehat{R}_s(\cal{H})

将该不等式与定理3.3的一般 $Rademacher$ 复杂度学习界结合起来完成了证明。

设 $p\geqslant 1$ ,并假设 $|h(x)-y| \leqslant M$ 对于所有 $（x，y）\in\mathcal{X} \times \mathcal{Y}$ 和 $h \in \mathcal{H}$ ，那么，由于对于任何 $y'$ ，函数 $y \mapsto|y-y'|^p$ 对于 $（y-y'\in[-M,M]$ 是 $pM^{p-1}-Lipschitz$ ，该定理适用于任何 $L_p$ 损失。例如，对于任何 $\mu$ >0，在大小为 $m$ 的样本 $S$ 上概率至少为1- $\delta$ 的情况下，以下不等式中的每一个都适用于所有 $h \times \mathcal{H}$ ：

\underset{(x,y) \sim \mathcal{D}} \mathbb{E}[|h(x)-y|^p] \leqslant \frac{1}{m} \sum_{i=1}^m|h(x_i),y_i|^p+2pM^{p-1} \frak{R}_m(\mathcal{H})+M^p\sqrt{\frac{\log{\frac{1}{\sigma}}}{2m}}

与分类的情况一样，这些泛化范围表明了在减少经验误差（可能需要更复杂的假设集）和控制 $\mathcal{H}$ 的 $Rademacher$ 复杂性（可能增加经验误差）之间的权衡。定理的最后一个学习界的一个重要优点是它依赖于数据。这可以带来更准确的学习保证。基于核的假设（定理6-12）的 $\frak{R}_m(\mathcal{H})$ 或 $\frak{R}_s(\mathcal{H})$ 上界可直接用于推导基于核矩阵轨迹或最大对角项的推广界。

11.2一般化界限

图11.1

带见证人 $t1$ 和 $t2$ 的一组两点{ ${z_1,z_2}$ }破碎的图示

11.2.3伪尺寸界限

正如前面在分类案例中所讨论的，有时在计算上很难估计假设集的经验Rademacher复杂性。在第3章中，我们介绍了假设集复杂性的其他度量，如 $\rm{VC}$ -dimension，它们纯粹是组合的，通常更容易计算或上界。然而，为二元分类引入的破碎或 $\rm{VC}$ -dimension的概念并不适用于实值假设。

我们首先为实值函数族引入一个新的破碎概念。与前几章一样，我们将使用符号 $\cal{G}$ 表示函数族，当我们打算稍后将其解释为（至少在某些情况下）与某个假设集 $\mathcal{H}:\cal{G}$ ={ $z=(x,y) \mapsto L(h(x),y):h \in \mathcal{H}$ }相关联的损失函数族时。

定义11。4（破碎）

设 $\cal{G}$ 是从集合 $Z$ 到 $\mathbb{R}$ 的函数族。如果存在 $t_1,...,t_m \in \mathbb{R}$ ，则称一组 $\{z_1,...,z_m\}$ 被 $\mathbb{R}$ 粉碎，从而

\begin{vmatrix} \begin{Bmatrix} \begin{bmatrix} sgn(g(z_1)-t_1\\ \vdots \\ sgn(g(z_m)-t_m) \end{bmatrix}:g \in \cal{G} \end{Bmatrix} \end{vmatrix}=2^m

当它们存在时，阈值 $\{t_1，…，t_m\}$ 被称为见证了破碎。因此， $\{z_1，…，z_m\}$ 被破碎，如果对于一些见证者 $\{t_1，…，t_m\}$ ，函数族 $\cal{G}$ 足够丰富，包含一个在点集 $\cal{J}=\{(z_i,t_i):i \in [m]\}$ 的子集 $\mathcal{A}$ 之上而在其他点集（ $\cal{J}-\mathcal{A}$ ）之下的函数，对于子集 $nathcal{A}$ 的任何选择。图11。1用一个简单的例子说明了这一点。自然破碎的概念导致了以下定义。

图11。2.

函数 $g:z=(x,y)\mapsto L(h(x,y))$ (蓝色）定义为关于阈值 $t$ （黄色）的某个固定假设 $h \in \mathcal{H}$ 及其阈值版本 $(x,y) \mapsto 1_{L(h(x),y)}$ （红色）的损失。

定义11.5（伪尺寸）

设 $\cal{G}$ 是从 $\mathcal{X}$ 映射到 $\mathbb{R}$ 的函数族。然后， $\cal{G}$ 的伪维数，用 $Pdim$ （ $\cal{G}$ ）表示，是 $\cal{G}$ 破坏的最大集的大小

根据刚才介绍的破碎的定义，实值函数族 $\cal{G}$ 的伪维数的概念与对应的阈值函数映射 $\mathcal{X}$ 到{0,1}的 $\rm{VC-dimention}$ 的概念一致

\rm{Pdim}(\mathcal{G})=\rm {VCdim} \left(\{(x,t) \mapsto 1_{(g(x)-t)>0}:g \in \mathcal{G}\}\right) \qquad\qquad\qquad(11.3)

图11.2说明了这种解释。鉴于这种解释，以下两个结果直接遵循 $VC$ 维度的特性

定理11.6 $\mathbb{R}^N$ 中超平面的伪维数由下式给出

Pdim(\{\bf{x} \mapsto \bf{w \cdot x}+\rm{b}:\bf{w} \in \mathbb {R}^{\rm{N}} ,\rm{b}\in \mathbb{R} \})=N+1

定理11.7实值函数 $\cal{H}$ 的向量空间的伪维数等于向量空间的维数:

\rm{Pdim}(\mathcal{H})=dim(\mathcal{H})

以下定理根据损失函数族 $\mathcal{G}=\{z=(x,y) \mapsto L(h(x),y):h \in \mathcal{H}\}$ 的伪维数给出了有界回归的推广界与假设集 $\mathcal{H}$ 相关。推导这些界限的关键技术包括利用以下关于随机变量 $X$ 期望的一般恒等式，将问题简化为分类问题:

\qquad\qquad\qquad\mathbb{E}[X]=-\int_{- \infty}^0 \mathbb{P}[X<t]dt+\int_0^{+ \infty} \mathbb{P}[X>t]dt,\qquad\qquad\qquad(11.4)

11.[2一般化界限]

根据勒贝格积分的定义，它成立。特别地，对于任何分布 $\mathcal{D}$ 和任何非负可测函数 $f$ ，我们可以写

\qquad\qquad\qquad\underset{z \sim \mathcal{D}}\mathbb{E}[f(z)]=\int_0^\infty \underset{z \sim \mathcal{D}}\mathbb{P} [f(z)>t]dt.\qquad\qquad\qquad\qquad\qquad\qquad(11.5)

定理11.8

设 $\mathcal{H}$ 是实值函数族， $\cal{G}=\{(x，y）\mapsto \it{L} (h(x,y)):h \in \cal{H} \}$ 是与 $\mathcal{H}$ 相关联的损失函数族。假设 $Pdim (\cal{G})=d$ ，且损失函数 $L$ 是非负的且有界于 $M$ 。然后，对于任何 $\delta>0$ ，在选择从 $\cal{D}^m$ 提取的 $M$ 大小的am $i.i.d$ .样本 $S$ 时，概率至少为 $1-\delta$ ，以下不等式适用于所有 $h \in \cal{H}$ :

\qquad\qquad\qquad R(h)\leqslant \widehat{R}_s(h)+M \sqrt{\frac{2d \log{\frac{em}{d}}}{m}}+M \sqrt{\frac{\log{\frac{1}{\delta}}}{2m}}\qquad\qquad\qquad\qquad(11.6)

证明：让我们做一个尺寸为 $m$ 的样品，绘制i.i.d。根据 $\cal{D}$ ，让 $\widehat{\cal{D}}$ 表示由 $S$ 定义的经验分布。对于任何 $h \in \cal{H}$ 和 $t \geqslant 0$ ，我们用c（h，t）表示由c(h,t)定义的分类: $(x,y) \mapsto 1_{L(h(x),y)>t}$ 的误差可由以下公式定义：

R(c(h),t)=\underset{(x,y) \sim{\mathcal{D}}}{\mathbb{P}}[c(h,t)(x,y)=1]=\underset{(x,y) \sim{\mathcal{D}}}{\mathbb{P}}[L(h(x),y)>t],

并且，同样地。其经验误差为： $\widehat{R}_s(c(h,t))=\cal{R}_{(x,y) \sim \widehat{\cal{D}}} [\rm{L}(h(x),y)>t]$

现在，考虑到恒等式（11.5）和损失函数 $L$ 以 $M$ 为界的事实，我们可以写

|R(h)- \widehat{R}_s(h)| =\begin{vmatrix} \underset{(x,y) \sim{\mathcal{D}}}{\mathbb{E}}[L(h(x),y]-\underset{(x,y) \sim{ \widehat{\mathcal{D}}}}{\mathbb{E}}[L(h(x),y)] \end{vmatrix}\qquad\qquad\qquad \\ \qquad\qquad\qquad\qquad\ =\begin{vmatrix} \int_0^M \begin{pmatrix} \underset{(x,y) \sim{\mathcal{D}}}{\mathbb{P}}[L(h(x),y)>t]-\underset{(x,y) \sim{ \widehat{\mathcal{D}}}}{\mathbb{P}}[L(h(x),y)>t] \end{pmatrix} dt \end{vmatrix} \\ \qquad\qquad\qquad\qquad \leqslant M \underset{t \in[0,M]}{sup} \begin{vmatrix} \underset{(x,y) \sim{\mathcal{D}}}{\mathbb{P}}[L(h(x),y)>t]-\underset{(x,y) \sim{ \widehat{\mathcal{D}}}}{\mathbb{P}}[L(h(x),y)>t] \end{vmatrix}\\ = M \underset{t \in[0,M]}{sup} \begin{vmatrix} R(c(h,t))-\widehat{R}_s(c(h,t)) \end{vmatrix}\qquad

这意味着以下不平等

\mathbb{P} \begin{bmatrix} \underset{h \in \cal{H}}{sup} \ |R(h)- \widehat{R}_s(h)|> \epsilon \end{bmatrix} \leqslant \mathbb{P} \begin{bmatrix} \underset{\underset{t \in[0,M]}{h \in \cal{H}}}{sup} \ \begin{vmatrix} R(c(h,t))- \widehat{R}_s(c(h,t)) \end{vmatrix}> \frac{\epsilon}{M} \end{bmatrix}

根据 $hy-potheses$ 族的 $VC$ 维，可以使用分类的标准泛化界（推论3.19）对右侧进行界定

图形11.3

对于 $N=1$ ，线性回归包括找到最佳拟合线，以损失平方衡量。

{ $c(h,t):h \in \cal{H}, t \in[0,\it{M}]$ }，根据伪维数的定义，它精确地表示为 $Pdim（\cal{G}）=d$ 。所得界限与（11.6）一致

如前一定理所示，伪维数的概念适用于回归分析；然而，这不是一个规模敏感的概念。存在另一种复杂性度量，脂肪粉碎维度，即规模敏感性，可以被视为伪维度的自然扩展。其定义基于 $\gamma$ 粉碎的概念。

定义11.9（ $\gamma$ -破碎）

设 $\cal{G}$ 是从 $\cal{Z}$ 到 $\mathbb{R}$ 的一个函数族， $\gamma$ >0一个集合{ $z_1,...,z_m$ } $\subseteq \cal{X}$ 被 $\cal{G}$ 打碎，如果存在 $t_1,...,t_m \in \mathbb{R}$ ，那么对于所有 $\rm{y} \in \{-1,+1\}^m$ ，存在 $g \in \cal{G}$ ，这样

V_i \in[M],y_i(g(z_i)-t_i) \geqslant \gamma

因此， $\{z_1,...z_m\}$ 是 $\gamma$ -破碎的，如果对于一些证人 $t_1,...,t_m$ ，函数族 $\cal{G}$ 足够丰富，对于子集a的任何选择，它至少包含一个在点集 $\cal{J}=\{(z_i,t_i):i \in[\it{M}]\}$ 的子集a上方 $\gamma$ 且在其他( $\cal{G}-\cal{A}$ )下方 $\gamma$ 的函数。

定义11.10（ $\gamma$ -fat维度）

$\cal{G}$ 的 $gamma$ -fat维数， $fat_{\gamma} \cal{G}$ ，是由 $\cal{G}$ 分解的最大集的大小。

根据 $\gamma$ -fat-dimension可以导出比基于伪维的更精细的泛化边界。然而，由此产生的学习范围并不比基于Rademacher复杂度的学习范围更具信息量，Rademacher复杂度也是一种尺度敏感的复杂度度量。因此，我们将不详述基于 $\gamma$ -fat维度的分析。

11.3回归算法

前几节的结果表明，对于相同的经验误差，根据Rademacher复杂度或伪维数测量的复杂度较小的假设集受益于更好的泛化保证。一类复杂度相对较小的函数是线性假设。在本节中，我们描述并分析了基于该假设集的几种算法：线性回归、核岭回归（KRR）、支持向量回归（SVR）和套索。这些算法，特别是最后三种，在实践中得到了广泛的应用，通常会产生最先进的性能结果。

11.3.1线性回归

我们从最简单的回归算法开始，称为线性回归。设 $\Phi:\cal{X} \to \mathbb{R}^{\rm{N}}$ 是从输入空间 $\cal{X}$ 到 $\mathbb{R}^N$ 的特征映射，并考虑线性假设族。

\qquad\qquad\qquad\cal{H}=\{x \mapsto \bf{w \cdot \Phi}(x)+b:\bf{w} \in\mathbb{R}^N,b \in \mathbb{R} \} \qquad\qquad\qquad\qquad (11.7)

线性回归包括在t中寻找经验平方误差最小的假设。因此，对于样本 $S=((x_1,y_1),...,(x_m,y_m) ) \in (\cal{X},{Y})^m$ ，以下是相应的优化问题

\qquad\qquad\qquad \underset{\bf{w},\rm{b}}{\rm{min}} \ \frac{1}{m} \sum_{i=1}^m(\bf{w \cdot \Phi}(x_i)+\rm{b}-y_i)^2 . \qquad\qquad\qquad\qquad \qquad\qquad (11.8)

图11.3说明了在 $N$ =1的简单情况下的算法。优化问题允许使用更简单的公式

\qquad\qquad\qquad \underset{\bf{W}}{min} \ F(\bf{W})=\rm{\frac{1}{m}} \begin{Vmatrix}{\bf{X}^T \bf{W}-\bf{Y}} \end{Vmatrix}^2\qquad\qquad\qquad\qquad \qquad\qquad (11.9)

使用符号 $\bf{X}=\begin{bmatrix} {\Phi(x_1)... \Phi(x_m)}\\ {1...1} \end{bmatrix}$ ， $\bf{W}=\begin{bmatrix} {w_1}\\ {\vdots}\\ {w_N}\\ {b}\\ \end{bmatrix}$ 和 $\bf{Y}=\begin{bmatrix} {y_1}\\ {\vdots}\\ {y_m}\\ \end{bmatrix}$ .通过凸函数 ${\rm{u} \mapsto}$ $\begin{Vmatrix} {\rm{u}} \\ \end{Vmatrix}^2$ 与仿射函数 $\bf{W} \mapsto {\bf{X}^T \bf{W}-\bf{Y}}$ 的组合，目标函数 $F$ 是凸的，并且是可微的。因此， $F$ 在 $W$ 当且仅当 $\bigtriangledown F(\bf{W}) =\rm{0}$ ，即当且仅当

\qquad\qquad\qquad \frac{2}{m} \bf{X}(X^{\rm{T}}W-Y)=0 \Leftrightarrow \bf{XX^{\rm{T}} W}=\bf{XY}\qquad\qquad\qquad\qquad\qquad (\rm{11.10}）

当 $\bf{XX^{\rm{T}}}$ 可逆时，该方程允许唯一解。否则，该方程允许通过 $\bf{w}=（\bf{XX}^{\rm{T}})^{\dag} \bf{XY} +(I-（\bf{XX}^T)^{\dag} (\bf{XX^T}))\bf{W}_0$ 以矩阵 $\bf{XX^{\rm{T}}}$ （见附录 $A$ ）的伪逆形式给出一系列解，其中 $\bf{W}_0$ 是 $\mathbb{R}^{N \times N}$ 中的任意矩阵是一个具有最小范数的，并且经常因为这个原因而被推荐

\bf{W}=\begin{cases} （\bf{XX}^{\rm{T}})^{-1} \bf{XY}\qquad\rm{if} \ \bf{XX}^{\rm{T}} \ \rm{is} \ invertible,\\ （\bf{XX}^{\rm{T}})^{\dag} \bf{XY} \qquad \rm{otherwise}. \end{cases} \tag{11.11}

矩阵 $\bf{XX^{\rm{T}}}$ 可以在 $O(mN^2)$ 中计算。求逆或求伪逆的代价是 $O(N^3)·^{19}$ 最后与 $\bf{X}$ 和 $\bf{Y}$ 的乘法取 $O(mN^2)$ 。因此，计算解W的总体复杂度为 $O(mN^2+N^3)$ 。因此，当特征空间 $N$ 的维数不是太大时。可以有效地计算该解。

虽然线性回归很简单，可以直接实现，但它不能从强大的泛化保证中获益，因为它仅限于在不控制权重向量范数和任何其他正则化的情况下最小化经验误差。在大多数应用程序中，它的性能通常也很差。下一节将介绍具有更好的理论保证和改进的实践性能的算法。

11.3.2核岭回归

我们首先提出了一个学习保证回归有界线性假设在一个特征空间定义的 $\rm{PDS}$ 核。这将为本节介绍的核岭回归算法提供强大的理论支持。对于平方损失，给出了该部分的学习界。因此，特别是假设 $h$ 的推广误差由 $R(h)=\mathbb{E}_{(x,y) \sim D}[(h(x)-y)^2]$ 定义。

定理11.11设 $K:\mathcal{X} \times \mathcal{X} \to \mathbb{R}$ 为 $PDS$ 核， $\Phi:\mathcal{X} \to \mathbb{H}$ 为与 $\rm{K}$ 相关的特征映射， $\cal{H}=\{ x \mapsto \bf{w}·\Phi(x):\| \bf{w} \|_{\mathbb{H}} \leq \Lambda$ 。假设存在 $r>0$ 使得 $K(x,x) \leq r^2$ 和 $M>0$ 使得 $|h(x)-y|<M$ 对于所有 $(x,y) \in \mathcal{X \times Y}$ 。然后，对于概率至少为 $1-\delta$ 的任何 $\delta>0$ ，下列不等式中的每一个都适用于所有 $h \in \mathcal{H}$ ：

R(h)\leqslant \widehat{R}_s(h)+4M \sqrt{\frac{r^2 \Lambda^2}{m}}+M^2 \sqrt{\frac{\log{\frac{1}{\delta}}}{2m}}

R(h)\leqslant \widehat{R}_s(h)+\frac{4M \Lambda \sqrt{Tr[\bf{K}]}}{m}+3M^2 \sqrt{\frac{\log{\frac{1}{\delta}}}{2m}}

19在分析本章讨论的算法的计算复杂性时，矩阵求逆的立方时间复杂性可以用更有利的复杂性 $O(N^{2+w})$ 代替，其中 $w=.376$ 使用渐进更快的矩阵求逆方法，如Coppersmith和Winograd的方法。

11.3重新回归算法

证明：根据基于核假设的经验Rademacher复杂性的界（定理6.12），以下适用于任何大小为 $m$ 的样本 $S$

\widehat{R}_s(\mathcal{H}) \leq \frac{ \Lambda \sqrt{Tr[\bf{K}]}}{m} \leq \sqrt{ \frac {r^2 \Lambda^2}{m}},

这意味着 $\widehat{R}_s(\mathcal{H}) \leq \sqrt{ \frac {r^2 \Lambda^2}{m}}$ 。将这些不等式与定理11.3的学习界结合，立即产生不等式。定理的学习界建议最小化经验平方损失（右侧第一项）和权重向量范数之间的权衡（第二项中出现的范数的上界 $\Lambda$ ），或等效范数平方。核岭回归是由正具有这种形式的一个目标函数的最小化定义的，因此直接受到刚才的理论分析的推动:

\qquad\qquad\qquad \underset{\bf{W}}{min} \ F(\bf{W})=\lambda \begin{Vmatrix}{\bf{W}} \end{Vmatrix}^2+\sum_{i=1}^m(\bf{w \cdot \Phi}(\it{x_i})-y_i)^2 \qquad\qquad\qquad \rm{(11.12)}

翻译

第11章回归

11.1回归问题

11.2一般化界限

11.2.1有限假设集

定理11.1

11.2.2 Rademacher复杂度界限

提案11.2（μ−Lipschitz\mu-Lipschitzμ−Lipschitz 损失函数的Rademacher复杂性）

定理11.3（Rademacher复杂度回归界）

11.2一般化界限

图11.1

11.2.3伪尺寸界限

图11。2.

定义11.5（伪尺寸）

定理11.6 RN\mathbb{R}^NRN中超平面的伪维数由下式给出

定理11.7实值函数H\cal{H}H的向量空间的伪维数等于向量空间的维数:

11.[2一般化界限]

定理11.8

图形11.3

定义11.10（γ\gammaγ-fat维度）

11.3回归算法

11.3.1线性回归

11.3.2核岭回归

11.3重新回归算法

提案11.2（ $\mu-Lipschitz$ 损失函数的Rademacher复杂性）

定理11.6 $\mathbb{R}^N$ 中超平面的伪维数由下式给出

定理11.7实值函数 $\cal{H}$ 的向量空间的伪维数等于向量空间的维数:

定义11.10（ $\gamma$ -fat维度）