从零开始学AI——12# 前言好热好热好热 ## 第十二章本章比较理论，主要说的是凭什么相信机器学习，他为什么能给出

前言

好热好热好热

第十二章

本章比较理论，主要说的是凭什么相信机器学习，他为什么能给出一个好的结果：本质是研究泛化误差问题

12.1 基础知识

我们先假设有一个样本集 $D =\{(x_{1},y_{1}),\dots,(x_{m},y_{m})\}$ ，其中所有样本都是独立同分布地从分布 $\mathcal{D}$ 中采样得到的。这里每个 $x_{i}$ 属于输入空间 $\mathcal{X}$ ，每个 $y_{i}$ 属于输出空间 $\mathcal{Y}$ 。在接下来的讨论中，如果没有特别说明，我们默认研究的是二分类问题。

通过机器学习算法，我们得到了一个学习器 $h$ ，它实际上是一个从输入空间到输出空间的映射，即 $h:\mathcal{X}\to \mathcal{Y}$ 。这个学习器的泛化误差定义为：

E(h;\mathcal{D})=P_{x\sim \mathcal{D}}(h(x)\neq y)

这个式子表示当输入 $x$ 服从分布 $\mathcal{D}$ 时，学习器 $h$ 预测错误的概率。

同时，基于我们已有的样本集 $D$ ，可以计算出经验误差（也称为训练误差）：

\hat{E}(h;\mathcal{D})=\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}(h(x_{i})\neq y_{i})

这里 $\mathbb{I}(\cdot)$ 是指示函数，当括号内条件成立时取值为1，否则为0。由于样本集 $D$ 是从 $\mathcal{D}$ 中独立同分布采样得到的，因此经验误差的期望等于泛化误差。当上下文明确时，我们可以省略误差表示中的 $\mathcal{D}$ 。

上述内容我们应该是很熟悉的了。现在需要明确的是，我们不期望学习到的模型 $h$ 能够完全匹配宇宙中客观存在的完美真理函数 $c$ （也称概念concept）。我们只要求 $h$ 和 $c$ 之间的误差率足够小，具体来说就是要求泛化误差不超过一个预先设定的很小正值 $\epsilon$ ，即满足 $E(h)\leq\epsilon$ 。对于模型 $h$ 在样本集 $D$ 上的表现，如果经验误差 $\hat{E}(h;D)=0$ ，我们就说 $h$ 与 $D$ 一致；否则称为不一致。此外，对于任意两个模型 $h_{1}$ 和 $h_{2}$ ，我们可以通过定义它们的不合度来衡量它们之间的差异：

d(h_{1},h_{2})=P_{x\sim \mathcal{D}}(h_{1}(x)\neq h_{2}(x))

这个不合度度量了两个模型在分布 $\mathcal{D}$ 下产生不同预测的概率。

接下来，我们引入几个常用的不等式：

不想纠结证明的朋友可以只记结论

Jensen不等式：设 $f(x)$ 是任意凸函数，则有 $f(\mathbb{E}(x))\leq \mathbb{E}(f(x))$ 对于一个凸函数 $f(x)$ ，找一个特殊点 $\mu=\mathbb{E}(x)$ 。根据凸函数的定义，在点 $\mu$ 处存在一条支撑线（支撑超平面），使得对于所有 $x$ ，都有： $f(x) \ge f(\mu) + c(x - \mu)$ 其中 $c$ 是支撑线在 $\mu$ 处的斜率。对上述不等式两边同时取数学期望： $\mathbb{E}[f(x)] \ge \mathbb{E}[f(\mu) + c(x - \mu)]$ 将右边展开：

第一项 $f(\mu)$ 是常数，其期望就是它本身： $\mathbb{E}[f(\mu)]=f(\mu)=f(\mathbb{E}[x])$
第二项 $c(x-\mu)$ 可以分解为： $\mathbb{E}[c(x - \mu)] = c\mathbb{E}[x - \mu] = c(\mathbb{E}[x] - \mu) = c(\mu - \mu) = 0$

因此不等式右边简化为 $f(\mathbb{E}[x])$ ，从而得到： $\mathbb{E}[f(x)] \ge f(\mathbb{E}[x])$ 证毕。 Hoeffding不等式：设 $x_{1},x_{2},\dots,x_{m}$ 为 $m$ 个独立随机变量，且满足 $x_{i}\in[0,1]$ ，则对于任意 $\epsilon>0$ ，有

P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) \le \exp(-2m\epsilon^2)

同时

P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le 2\exp(-2m\epsilon^2)

首先考虑第一个不等式。令 $S_{m}=\sum_{i=1}^{m}x_{i}$ ，将不等式改写为：

P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \le \exp(-2m\epsilon^2)

对不等式左边进行如下变形：

\begin{align} &P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \\ &=P\left(S_{m} - \mathbb{E}[S_m] \ge m\epsilon\right) \\ &=P\left(e^{s(S_m - \mathbb{E}[S_m])} \ge e^{sm\epsilon}\right) \\ &\leq \frac{\mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}]}{e^{sm\epsilon}} \end{align}

其中：

第二步引入了任意正数 $s>0$ ，这是为了后续应用马尔可夫不等式做准备。
第三步应用了马尔可夫不等式：对于非负随机变量 $Y = e^{s(S_m - \mathbb{E}[S_m])}$ ，有 $P(Y \ge a) \le \frac{\mathbb{E}[Y]}{a}$ 。

接下来处理分子部分 $\mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}]$ 。设 $z_i = x_i - \mathbb{E}[x_i]$ ，则 $S_m - \mathbb{E}[S_m] = \sum_{i=1}^m z_i$ 。由于 $x_i$ 相互独立， $z_i$ 也相互独立，因此：

\begin{align} \mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}] &= \mathbb{E}[e^{s \sum_{i=1}^m z_i}] \\ &= \prod_{i=1}^m \mathbb{E}[e^{s z_i}] \end{align}

为了给出 $\mathbb{E}[e^{s z_i}]$ 的上界，我们使用Hoeffding引理：若随机变量 $Z$ 满足 $\mathbb{E}[Z]=0$ 且 $Z \in [a, b]$ ，则对于任意 $s>0$ ，有：

\mathbb{E}[e^{sZ}] \le \exp\left(\frac{s^2(b-a)^2}{8}\right)

对于 $z_i = x_i - \mathbb{E}[x_i]$ ，由于 $x_i \in [0,1]$ ，可得 $z_i \in [-\mathbb{E}[x_i], 1-\mathbb{E}[x_i]]$ ，区间长度为 $1$ ，且 $\mathbb{E}[z_i]=0$ 。因此，应用Hoeffding引理得到：

\mathbb{E}[e^{s z_i}] \le \exp\left(\frac{s^2}{8}\right)

将其代回分子部分：

\prod_{i=1}^m \mathbb{E}[e^{s z_i}] \le \prod_{i=1}^m \exp\left(\frac{s^2}{8}\right) = \exp\left(\frac{m s^2}{8}\right)

于是不等式变为：

P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \le \frac{\exp\left(\frac{m s^2}{8}\right)}{e^{s m \epsilon}} = \exp\left(\frac{m s^2}{8} - s m \epsilon\right)

由于该不等式对所有 $s>0$ 成立，我们选择 $s$ 使得右侧指数最小。对 $\frac{s^2}{8} - s \epsilon$ 关于 $s$ 求导并令导数为零，得到最优 $s=4\epsilon$ 。将其代入，得到最小上界：

\exp\left(\frac{m (4\epsilon)^2}{8} - 4\epsilon m \epsilon\right) = \exp(-2 m \epsilon^2)

因此：

P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) \le \exp(-2 m \epsilon^2)

证明第二个不等式：

对于绝对值形式的不等式，可以将其拆分为两个事件：

\left\{ \left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon \right\} = \left\{ \frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon \right\} \cup \left\{ \frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \le -\epsilon \right\}

由概率的并集不等式 $P(A \cup B) \le P(A) + P(B)$ ，有：

P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) + P\left(\frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] - \frac{1}{m}\sum_{i=1}^m x_i \ge \epsilon\right)

第一项的上界已证明为 $\exp(-2 m \epsilon^2)$ 。对于第二项，可以通过变量替换 $x_i \to -x_i$ ，由于 $x_i \in [0,1]$ 的性质和独立性保持不变，其概率上界同样为 $\exp(-2 m \epsilon^2)$ 。因此：

P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le 2 \exp(-2 m \epsilon^2)

证毕。 McDiarmid不等式：

设 $x_1, x_2, \ldots, x_m$ 是 $m$ 个独立的随机变量，若函数 $f$ 满足：对于任意 $1 \leqslant i \leqslant m$ 和任意的 $x_1, \ldots, x_m, x_i'$ ，都有

\left| f(x_1, \ldots, x_m) - f(x_1, \ldots, x_{i-1}, x_i', x_{i+1}, \ldots, x_m) \right| \leqslant c_i,

这意味着当只改变第 $i$ 个输入变量时，函数值的变化幅度不超过 $c_i$ 。那么对于任意 $\epsilon > 0$ ，有

P \left( f(x_1, \ldots, x_m) - \mathbb{E} \left[ f(x_1, \ldots, x_m) \right] \geqslant \epsilon \right) \leqslant \exp \left( \frac{ -2\epsilon^2 }{ \sum_{i=1}^m c_i^2 } \right),

以及

P \left( \left| f\left( x_1, \ldots, x_m \right) - \mathbb{E} \left[ f(x_1, \ldots, x_m) \right] \right| \geqslant \epsilon \right) \leqslant 2 \exp \left( \frac{ -2\epsilon^2 }{ \sum_{i=1}^m c_i^2 } \right).

为了简化书写，记 $X = (x_1, \ldots, x_m)$ ，并定义 $Z = f(X) - \mathbb{E}[f(X)]$ 。我们引入条件期望的记号： $\mathbb{E}_i[\cdot]$ 表示对变量 $\{x_i, x_{i+1}, \ldots, x_m\}$ 取期望，而将 $\{x_1, \ldots, x_{i-1}\}$ 视为固定值。定义

V_i = \mathbb{E}[f(X) | x_1, \ldots, x_i],

这是一个仅依赖于前 $i$ 个变量的函数。特别地：

$V_m = \mathbb{E}[f(X) | x_1, \ldots, x_m] = f(X)$ ，
$V_0 = \mathbb{E}[f(X)]$ 。

于是， $Z$ 可以表示为：

Z = V_m - V_0 = \sum_{i=1}^m (V_i - V_{i-1}).

记 $Y_i = V_i - V_{i-1}$ ，则 $Z = \sum_{i=1}^m Y_i$ 。接下来，我们采用切诺夫界的方法：对于任意 $\lambda > 0$ ，有

P(Z \geqslant \epsilon) \leqslant e^{-\lambda \epsilon} \mathbb{E}[e^{\lambda Z}] = e^{-\lambda \epsilon} \mathbb{E}\left[\exp\left(\lambda \sum_{i=1}^m Y_i\right)\right].

切诺夫界方法：对于随机变量 $Z$ ，通过引入参数 $\lambda > 0$ ，利用马尔可夫不等式可得： $P(Z \geqslant \epsilon) = P(e^{\lambda Z} \geqslant e^{\lambda \epsilon}) \leqslant \frac{\mathbb{E}[e^{\lambda Z}]}{e^{\lambda \epsilon}}.$

接下来计算 $\mathbb{E}[e^{\lambda Z}]$ 。根据塔定律（条件期望的迭代性质），可以逐步对变量取条件期望。首先：

\mathbb{E}[e^{\lambda \sum_{i=1}^m Y_i}] = \mathbb{E}\left[ \mathbb{E}\left[ e^{\lambda \sum_{i=1}^m Y_i} | x_1, \ldots, x_{m-1} \right] \right].

在内层条件期望中， $x_1, \ldots, x_{m-1}$ 是固定的，因此 $Y_1, \ldots, Y_{m-1}$ 是常数，可以提出：

\mathbb{E}\left[ e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right] = e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot \mathbb{E}\left[ e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right].

将其代回外层期望，得到：

\mathbb{E}[e^{\lambda Z}] = \mathbb{E}\left[ e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot \mathbb{E}\left[ e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right] \right].

重复这一过程，逐步对 $Y_{m-1}, Y_{m-2}, \ldots, Y_1$ 取条件期望，最终只需考虑：

\mathbb{E}\left[ e^{\lambda Y_i} | x_1, \ldots, x_{i-1} \right].

为了对上式进行界估计，我们使用Hoeffding引理。首先验证 $Y_i$ 的条件：

零均值性： $\mathbb{E}[Y_i | x_1, \ldots, x_{i-1}] = \mathbb{E}[V_i | x_1, \ldots, x_{i-1}] - V_{i-1} = V_{i-1} - V_{i-1} = 0.$
有界性：定义辅助函数： $g(x_i') = \mathbb{E}[f(x_1, \ldots, x_{i-1}, x_i', \ldots, x_m) | x_1, \ldots, x_{i-1}],$ 则 $V_i = g(x_i)$ ， $V_{i-1} = \mathbb{E}[g(x_i')]$ ，因此： $Y_i = g(x_i) - \mathbb{E}[g(x_i')].$ 由最开始 $f$ 的性质 $|f(\ldots) - f(\ldots)| \le c_i$ ， $g$ 的值域满足： $\sup_{x_i', x_i''} |g(x_i') - g(x_i'')| \leqslant c_i.$ 因此， $Y_i$ 的取值区间宽度不超过 $c_i$ 。

根据Hoeffding引理，有：

\mathbb{E}\left[ e^{\lambda Y_i} | x_1, \ldots, x_{i-1} \right] \leqslant \exp\left( \frac{\lambda^2 c_i^2}{8} \right).

将其代入 $\mathbb{E}[e^{\lambda Z}]$ 的表达式，得到：

\mathbb{E}[e^{\lambda Z}] \leqslant \prod_{i=1}^m \exp\left( \frac{\lambda^2 c_i^2}{8} \right) = \exp\left( \frac{\lambda^2 \sum_{i=1}^m c_i^2}{8} \right).

最后，通过优化 $\lambda$ 来最小化右式。令导数为零，解得：

\lambda = \frac{4\epsilon}{\sum_{i=1}^m c_i^2},

此时指数部分取得最小值：

-\frac{2\epsilon^2}{\sum_{i=1}^m c_i^2}.

因此，第一条不等式得证。第二条不等式可以通过类似 Hoeffding 不等式的对称性证明，此处省略。

12.2 PAC学习

回到我们的主线，我们需要解决的问题是学习器的泛化性能分析。为此，提出了可能近似正确(Probably Approximately Correct, PAC)学习框架，旨在为这一问题建立严格的数学理论基础。

正如前文所述，在这个框架下，我们对学习器的要求包含两个关键方面：

近似正确：不要求学习器 $h$ 达到零错误率，但要求其错误率能够控制在可接受的范围内。具体来说，对于给定的误差阈值 $\epsilon > 0$ ，学习器的错误率应当满足 $err(h) \leq \epsilon$ 。这里的 $\epsilon$ 反映了我们对模型精度的要求。
可能：不要求学习过程每次都成功，但要求成功的概率足够高。具体而言，对于给定的置信参数 $\delta > 0$ ，学习过程失败的概率不超过 $\delta$ 。换句话说，我们以至少 $1-\delta$ 的概率保证学习器满足近似正确性条件。 $\delta$ 的设定反映了我们对学习过程可靠性的要求。

PAC学习理论主要研究在给定学习要求的情况下，学习算法需要满足的条件，特别是所需的训练数据量。我们沿用之前的符号定义：输入空间 $\mathcal{X}$ 和输出空间 $\mathcal{Y}$ ，数据分布 $\mathcal{D}$ ，目标概念 $c$ 。接着引入两个概念：

假设空间 $\mathcal{H}$ ：表示在特定学习算法 $\mathcal{L}$ 作用下可能产生的所有假设 $h$ 的集合。这里需要特别注意，这个 $\mathcal{H}$ 是与算法相关的，不同于学习任务本身的理论假设空间。
概念类 $\mathcal{C}$ ：表示我们希望学习的所有可能目标概念的集合。如果目标概念 $c$ 包含在假设空间 $\mathcal{H}$ 中（即 $c\in \mathcal{H}$ ），那么我们称学习算法 $\mathcal{L}$ 是可分的或者一致的；反之则称为不可分的或不一致的。

接下来给出四个定义： PAC辨识：对于任意的 $0<\epsilon,\delta<1$ ，针对所有可能的目标概念 $c\in \mathcal{C}$ 和所有可能的数据分布 $\mathcal{D}$ ，若存在一个学习算法 $\mathcal{L}$ ，使得该算法输出的假设 $h\in \mathcal{H}$ 满足以下概率不等式：

P(E(h)\leq\epsilon)\geq 1-\delta

其中 $E(h)$ 表示假设 $h$ 的泛化误差，那么称学习算法 $\mathcal{L}$ 能够从假设空间 $\mathcal{H}$ 中PAC辨识概念类 $\mathcal{C}$ 。这个定义将机器学习算法需要满足的可靠性要求进行了严格的数学表述。

需要特别注意的是，虽然PAC辨识提供了一个理想化的理论保证，但它没有考虑实现这个保证所需的样本数量。如果达到该保证需要无限多个训练样本，那么这个理论结果就失去了实际应用价值。

PAC可学习：设 $m$ 表示从分布 $\mathcal{D}$ 中独立同分布采样得到的训练样本数量，给定参数 $0<\epsilon,\delta<1$ 。如果对于所有可能的分布 $\mathcal{D}$ ，都存在一个学习算法 $\mathcal{L}$ 和一个多项式函数 $\text{poly}(\cdot,\cdot,\cdot,\cdot)$ ，使得当样本量 $m$ 满足：

m \geq \text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))

时， $\mathcal{L}$ 都能从假设空间 $\mathcal{H}$ 中PAC辨识概念类 $\mathcal{C}$ ，那么就称概念类 $\mathcal{C}$ 相对于假设空间 $\mathcal{H}$ 是PAC可学习的，简称为概念类 $\mathcal{C}$ 是PAC可学习的。

这个定义的核心在于对样本的多项式约束，具体解释如下：

$1/\epsilon$ ：要求的精度越高（ $\epsilon$ 越小），需要的样本量越大
$1/\delta$ ：置信度要求越高（ $\delta$ 越小），需要的样本量越大
$\text{size}(\boldsymbol{x})$ ：输入样本的表示复杂度
$\text{size}(c)$ ：目标概念的描述复杂度

多项式增长意味着样本需求量的上界是可控的，这与指数级增长形成鲜明对比，后者在实际中往往是不可行的。

在保证样本效率的基础上，我们还需要考虑计算效率，这就引出了下一个定义：

PAC学习算法：如果一个学习算法 $\mathcal{L}$ 不仅使概念类 $\mathcal{C}$ 是PAC可学习的，而且 $\mathcal{L}$ 本身的运行时间也是多项式函数 $\text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))$ ，那么就称概念类 $\mathcal{C}$ 是高效PAC可学习的，并称 $\mathcal{L}$ 为概念类 $\mathcal{C}$ 的PAC学习算法。

这个定义在PAC可学习的基础上增加了对算法时间复杂度的约束，其理解方式与PAC可学习类似。最后，PAC可学习给出了样本量的一个下界，而我们还希望知道这个下界的最小值，这就是：

样本复杂度：对于PAC学习算法 $\mathcal{L}$ ，若存在多项式函数 $\text{poly}(\cdot)$ 使得当样本量 $m$ 满足 $m \geq \text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))$ 时， $\mathcal{L}$ 能实现PAC学习，则称满足该条件的最小 $m$ 值为该算法的样本复杂度。
这个指标反映了算法达到PAC学习要求所需的最小样本数量。

在PAC学习中，假设空间 $\mathcal{H}$ 的复杂度是一个重要因素：

当 $\mathcal{H}=\mathcal{C}$ 时（即假设空间与概念类完全一致），称为恰PAC学习，但这种情况通常难以实现。
更常见的情形是 $\mathcal{H}\neq\mathcal{C}$ ，此时 $\mathcal{H}$ 的规模会影响学习难度：
- $\mathcal{H}$ 越大，包含目标概念 $c$ 的可能性越高，但找到正确的 $c$ 也越困难。
- 若 $|\mathcal{H}|$ 有限，称 $\mathcal{H}$ 为有限假设空间；否则称为无限假设空间。

12.3 有限假设空间

我们先考虑最直观且简单的情形：模型假设空间是有限的，并且算法 $\mathcal{L}$ 是可分的（即存在至少一个假设 $h \in \mathcal{H}$ 在训练集上完全正确）。这种情况下，PAC学习的结论会如何？

由于 $\mathcal{L}$ 可分且 $\mathcal{H}$ 有限，我们可以通过遍历排除法逐步筛选假设：首先丢弃所有与训练集 $\mathcal{L}$ 不一致的假设，剩下的假设称为一致假设。但一致性只是必要条件，PAC学习还要求这些假设的泛化误差必须足够小。根据上一节的知识：对任意一个一致假设 $h$ ，其泛化误差 $E(h) \leq \epsilon$ 的概率至少为 $1-\delta$ ，才能满足PAC可辨识性。

证明过程如下：
假设从 $\mathcal{H}$ 中随机选取一个坏假设 $h_{bad}$ ，其泛化误差满足 $E(h_{bad}) > \epsilon$ 。对于任意来自分布 $\mathcal{D}$ 的样本 $(\mathbf{x}, y)$ ，该假设预测正确的概率为：

P(h_{bad}(\mathbf{x}) = y) = 1 - P(h_{bad}(\mathbf{x}) \neq y) = 1 - E(h_{bad}) < 1 - \epsilon

这意味着，坏假设 $h_{bad}$ 在单次预测中不犯错（即“蒙混过关”）的概率严格小于 $1 - \epsilon$ 。如果 $h_{bad}$ 要成为一致假设，它必须对所有 $m$ 个训练样本都预测正确，这一事件的概率不超过 $(1 - \epsilon)^m$ 。

接下来考虑假设空间 $\mathcal{H}$ 的整体性质。虽然无法直接计算抽到坏假设的概率，但可以通过联合界得到失败概率的上界：

P_{\text{fail}} \leq |\mathcal{H}| \cdot (1 - \epsilon)^m \leq |\mathcal{H}| \cdot e^{-\epsilon m}

其中最后一步利用了不等式 $1 - x \leq e^{-x}$ （ $x > 0$ ）。这表明，算法 $\mathcal{L}$ 输出坏假设的概率（即学习失败的概率）不超过 $|\mathcal{H}| e^{-\epsilon m}$ 。为了满足PAC要求，我们强制该概率小于 $\delta$ ：

|\mathcal{H}| e^{-\epsilon m} \leq \delta

解得所需的最小样本量 $m$ 为：

m \geq \frac{1}{\epsilon} \left( \ln|\mathcal{H}| + \ln\frac{1}{\delta} \right)

结论：只要样本数量 $m$ 满足上述条件，有限假设空间 $\mathcal{H}$ 在可分情形下一定是PAC可辨识且可学习的。

以上结论成立的条件中有一个明显的可分情形假设，那么如果数据不可分时该如何处理？在这种情况下， $\hat{E}(h)\neq {0} ,\forall h\in H$ ，也就是说对于假设空间中的任何假设，其在训练集上都无法达到完美表现。

这时一个自然的思路是放宽要求：我们只需要保证假设空间中在训练集上表现最好的那个假设 $h$ ，其泛化误差 $E(h)<\epsilon$ 的概率达到 $1-\delta$ 即可。

首先，这个证明需要用到之前提到的霍夫丁不等式：

P(|\hat{E}(h) - E(h)| > \epsilon) \le 2e^{-2m\epsilon^2}

接下来我们继续使用联合界。学习失败的事件定义为至少存在一个 $h \in \mathcal{H}$ 使得训练误差和泛化误差的偏差超过 $\epsilon$ ：

\begin{align} P_{fail} &= P(\exists h\in H,|\hat{E}(h)-E(h)|>\epsilon) \\ &\leq \sum_{h\in H}P(|\hat{E}(h)-E(h)|>\epsilon) \\ &\leq \sum_{h\in H} 2e^{-2m\epsilon^2} \\ &=2|\mathcal{H}|e^{-2m\epsilon^{2}} \end{align}

我们希望这个失败概率不超过 $\delta$ ，于是得到不等式 $|\mathcal{H}| \cdot 2e^{-2m\epsilon^2} \le \delta$ ，解这个不等式可以得到：

m \ge \frac{1}{2\epsilon^2} \left(\ln|\mathcal{H}| + \ln\frac{2}{\delta}\right)

这个结果表明即使在不可分情形下，PAC学习仍然是可能的。因此我们定义：

不可知 PAC 可学习：设 $m$ 表示从分布 $\mathcal{D}$ 中独立同分布采样的样本数量， $0 < \epsilon, \delta < 1$ 。如果对于所有分布 $\mathcal{D}$ ，存在学习算法 $\mathcal{L}$ 和多项式函数 $\text{poly}(\cdot, \cdot, \cdot, \cdot)$ ，使得对于任何 $m \ge \text{poly}(1/\epsilon, 1/\delta, \text{size}(x), \text{size}(c))$ ， $\mathcal{L}$ 能从假设空间 $\mathcal{H}$ 中输出满足以下条件的假设 $h$ ：

P\left(E(h) - \min_{h' \in \mathcal{H}} E(h') \le \epsilon\right) \ge 1 - \delta

则称假设空间 $\mathcal{H}$ 是不可知 PAC 可学习的。

最终我们得到了不可知 PAC 学习的样本复杂度界。将其与之前"可分"情况的结果进行比较：

可分情形: $m \ge \frac{1}{\epsilon} \left(\ln|\mathcal{H}| + \ln\frac{1}{\delta}\right)$
不可分情形: $m \ge \frac{1}{2\epsilon^2} \left(\ln|\mathcal{H}| + \ln\frac{2}{\delta}\right)$

可以观察到对 $\epsilon$ 的依赖关系从 $1/\epsilon$ 变为 $1/\epsilon^2$ ，这说明在不可知设定下，要达到相同的精度要求需要多得多的样本。

12.4 VC维

上一节我们讨论了有限假设空间的情况，现在将假设空间扩展到无限维的情形。考虑一个最简单的二分类任务，通常使用超平面将样本空间划分为两部分，每个超平面对应一个假设 $h$ 。这样的假设有多少个呢？显然存在无限多个，即 $|\mathcal{H}|=\infty$ 。根据上一节的推导公式（无论是否可分），这意味着需要无限多的训练样本，但这与实际情况不符。因此可以得出结论：对于无限维假设空间，上一节得到的边界公式不再适用。

为了处理无限假设空间的问题，VC维理论提出了新的思路：给定 $m$ 个数据点时，我们不关注能完美分类这些点的具体假设数量，而是研究这些假设能产生的不同划分结果的总数。为此需要先引入以下关键概念：

增长函数 $\Pi_{\mathcal{H}}(m)$ 的定义
对于任意正整数 $m$ ，假设空间 $\mathcal{H}$ 的增长函数定义为： $\Pi_{\mathcal{H}}(m) = \max_{\{x_1, \dots, x_m\} \subset \mathcal{X}} |\{(h(x_1), \dots, h(x_m)) | h \in \mathcal{H}\}|$

这个定义可以分两步理解：

首先固定一组 $m$ 个样本点 $\{x_1,...,x_m\}$ ，让假设空间 $\mathcal{H}$ 中的所有假设 $h$ 对这组样本进行预测，得到所有可能的输出组合 $(h(x_1),...,h(x_m))$ ，这些输出组合构成一个集合，计算该集合的大小（即不同预测结果的数量）。
然后考虑所有可能的 $m$ 个样本点的组合，对每个样本组合重复上述过程，最终取所有结果中的最大值作为 $\Pi_{\mathcal{H}}(m)$ 的值。

定理12.2我不打算证明，有想法的同学可以参照书上的注释找原文证明。

在此之上，我们可以定义打散：称假设空间 $\mathcal{H}$ 能够打散一个包含 $m$ 个样本点的集合 $D \subset \mathcal{X}$ ，当且仅当对于 $D$ 中样本的所有可能的 $2^m$ 种标签分配方式，都存在至少一个假设 $h \in \mathcal{H}$ 能够精确实现该标签组合。这意味着 $\mathcal{H}$ 在集合 $D$ 上的表达能力达到了最大可能，即 $\Pi_{\mathcal{H}}(m) = 2^m$ 。

而对于假设空间 $\mathcal{H}$ 能够打散的最大样本集的大小，我们就称为VC维：

VC(\mathcal{H}) = \max\{m:\Pi_{\mathcal{H}}(m)=2^{m}\}

比如如果一个 $\mathcal{H}$ 的VC维是 $d$ ，那么意味着存在这么一个样本集，其个数为 $d$ ，可以被 $\mathcal{H}$ 打散。至此我们有了足够的定义，现在就来考虑最终的问题：PAC学习，为此我们还得有一个引理。 Sauer引理 对于一个VC维为 $d$ 的假设空间 $\mathcal{H}$ 和任意大小为 $m$ 的点集 $D$ ，增长函数满足： $\Pi_{\mathcal{H}}(m) \le \sum_{i=0}^{d} \binom{m}{i}$

证明过程：采用数学归纳法，我们考虑以下构造：设 $D' = \{x_1, x_2, \dots, x_{m-1}\}$ 为去掉最后一个样本的点集。定义 $\mathcal{H}|_D$ 为假设空间 $\mathcal{H}$ 在 $D$ 上产生的所有可能标签组合的集合，即： $\mathcal{H}|_D = \{(h(x_1), h(x_2), \dots, h(x_m)) \mid h \in \mathcal{H}\}$

对于 $\mathcal{H}|_{D'}$ 中的任意标签组合 $y' = (y_1, \dots, y_{m-1})$ ，考察其在 $\mathcal{H}|_D$ 中的扩展情况。具体来说，我们需要确定 $y'$ 在 $\mathcal{H}|_D$ 中可能对应的完整标签组合。这有两种可能情形：

单次出现：仅存在 $(y_1, \dots, y_{m-1}, +1)$ 或 $(y_1, \dots, y_{m-1}, -1)$ 中的一个
两次出现：同时存在 $(y_1, \dots, y_{m-1}, +1)$ 和 $(y_1, \dots, y_{m-1}, -1)$

定义子集 $\mathcal{H}_{D'|D}$ ，它包含所有在 $\mathcal{H}|_{D'}$ 中能扩展出两种可能的标签组合： $\mathcal{H}_{D'|D} = \{(y_1, \dots, y_{m-1}) \in \mathcal{H}|_{D'} \mid \exists h, h' \in \mathcal{H}, (h(x_i)=h'(x_i)=y_i)_{i<m} \wedge h(x_m) \neq h'(x_m) \}$

由此可以得到基数关系： $|\mathcal{H}_{|_D}| = |\mathcal{H}_{|_{D'}}| + |\mathcal{H}_{D'|D}|$ 这是因为：

$|\mathcal{H}_{|_{D'}}|$ 计数所有可能的 $y'$
$|\mathcal{H}_{D'|D}|$ 额外计数那些能产生两种扩展的 $y'$ 对应的第二种扩展

现在我们需要对等式右边的两项分别使用归纳假设。

第一项： $|\mathcal{H}_{|_{D'}}|$ 表示假设空间 $\mathcal{H}$ 在 $m-1$ 个样本点 $D'$ 上的限制，即所有可能的标签组合数。根据归纳假设，可以得到： $|\mathcal{H}|_{D'}| \le \sum_{i=0}^{d} \binom{m-1}{i}$

第二项：令 $Q$ 表示能被 $\mathcal{H}_{D'|D}$ 打散的集合。根据 $\mathcal{H}_{D'|D}$ 的定义可知， $Q\cup\{x_m\}$ 必然能被 $\mathcal{H}|_D$ 打散。由于 $\mathcal{H}$ 的VC维为 $d$ ，因此 $\mathcal{H}_{D'|D}$ 的VC维最多为 $d-1$ 。于是可以得到： $|\mathcal{H}_{D'|D}| \le \sum_{i=0}^{d-1} \binom{m-1}{i}$ 这个上界比第一项少了一项，对应着VC维减少1带来的影响。

最后我们将这个结果应用到原始等式中，可以得到： $|\mathcal{H}|_D| = |\mathcal{H}|_{D'}| + |\mathcal{H}_{D'|D}| \le \sum_{i=0}^{d} \binom{m-1}{i} + \sum_{i=0}^{d-1} \binom{m-1}{i}$

现在让我们详细展开右边两个组合数求和项的合并过程：

\begin{aligned} \sum_{i=0}^{d} \binom{m-1}{i} + \sum_{i=0}^{d-1} \binom{m-1}{i} &= \left[ \binom{m-1}{0} + \sum_{i=1}^{d} \binom{m-1}{i} \right] + \left[ \sum_{i=1}^{d} \binom{m-1}{i-1} \right] \\ &= \binom{m-1}{0} + \sum_{i=1}^{d} \left( \binom{m-1}{i} + \binom{m-1}{i-1} \right) \\ &= \binom{m-1}{0} + \sum_{i=1}^{d} \binom{m}{i} \\ &= \binom{m}{0} + \sum_{i=1}^{d} \binom{m}{i} \\ &= \sum_{i=0}^{d} \binom{m}{i} \end{aligned}

引理得证。由该引理我们可以得到增长函数的一个上界：

\Pi_{\mathcal{H}}(m)\leq \left( \frac{em}{d} \right)^{d}

现在我们可以回到熟悉的PAC可学习框架上。我们需要确保"学习失败"的概率足够小，具体来说，这个概率应该小于我们能够容忍的风险阈值 $\delta$ 。根据定理12.2（没证明那个），我们可以将失败概率的上界设为 $\delta$ ：

$4 \Pi_{\mathcal{H}}(2m) \exp\left(-\frac{m\epsilon^2}{8}\right) = \delta$

在前面的推导中我们已经知道增长函数满足 $\Pi_{\mathcal{H}}(2m) \le \left(\frac{e \cdot 2m}{d}\right)^d$ 这个上界。将这个上界代入上式，可以得到：

$4 \left(\frac{2em}{d}\right)^d \exp\left(-\frac{m\epsilon^2}{8}\right) \le \delta$

为了求出 $\epsilon$ 的表达式，我们需要对这个不等式进行求解。最终可以得到 $\epsilon$ 的下界：

$\epsilon \ge \sqrt{\frac{8d \ln\left(\frac{2em}{d}\right) + 8\ln\left(\frac{4}{\delta}\right)}{m}}$ 基于上述工具，我们可以完成最后一个命题的证明：对于任何VC维有限的假设空间 $\mathcal{H}$ ，只要采用经验风险最小化(ERM)算法，就能构成一个满足PAC要求的学习算法。

具体说来，我们需要验证：当假设空间 $\mathcal{H}$ 的VC维有限时，采用ERM原则的学习算法 $\mathcal{L}$ 确实满足PAC可学习性。根据PAC学习的基本定义，这意味着对于任意给定的精度参数 $\epsilon > 0$ 和置信参数 $\delta \in (0,1)$ ，都存在一个样本量阈值 $m_{\mathcal{H}}(\epsilon,\delta)$ ，使得当训练样本量 $m \geq m_{\mathcal{H}}(\epsilon,\delta)$ 时，算法 $\mathcal{L}$ 从任意分布 $\mathcal{D}$ 中抽取样本集 $S$ 后输出的假设 $h=\mathcal{L}(S)$ ，能以至少 $1-\delta$ 的概率满足： $E(h) \leq \min_{h'\in\mathcal{H}}E(h')+\epsilon$

设 $h = \arg\min_{h'\in\mathcal{H}}\hat{E}(h')$ 为ERM算法输出的经验风险最小化假设， $g = \arg\min_{h'\in\mathcal{H}}E(h')$ 为整个假设空间中真实风险最小的理想假设。我们需要证明的是： $P(E(h)-E(g) \leq \epsilon) \geq 1-\delta$

首先将风险差分解为三个部分： $E(h)-E(g) = [E(h)-\hat{E}(h)] + [\hat{E}(h)-\hat{E}(g)] + [\hat{E}(g)-E(g)]$ 根据ERM的定义可知 $\hat{E}(h) \leq \hat{E}(g)$ ，因此中间项非正，于是有： $E(h)-E(g) \leq [E(h)-\hat{E}(h)] - [E(g)-\hat{E}(g)]$

我们需要证明以高概率这两个偏差项都控制在 $\epsilon/2$ 以内。为此定义两个事件并应用联合界：

固定假设 $g$ 的偏差控制：由于 $g$ 是固定假设（不依赖样本选择），根据Hoeffding不等式可得： $P(|\hat{E}(g)-E(g)|>\epsilon/2) \leq 2\exp(-m\epsilon^2/2)$ 令其不超过 $\delta/2$ ，则事件 $A_1: |E(g)-\hat{E}(g)| \leq \epsilon/2$ 以至少 $1-\delta/2$ 的概率成立。
一致收敛性控制：对于ERM输出的 $h$ （依赖样本选择），需要VC泛化界（定理12.3）： $P\left(\sup_{h'\in\mathcal{H}}|E(h')-\hat{E}(h')|>\epsilon/2\right) \leq 4\Pi_{\mathcal{H}}(2m)\exp(-m\epsilon^2/32)$ 令其不超过 $\delta/2$ ，则事件 $A_2: \sup_{h'\in\mathcal{H}}|E(h')-\hat{E}(h')|\leq\epsilon/2$ 以至少 $1-\delta/2$ 的概率成立。

由联合界可知： $P(A_1\cap A_2) \geq 1-(P(A_1^c)+P(A_2^c)) \geq 1-\delta$

当 $A_1$ 和 $A_2$ 同时成立时：

\begin{aligned} E(h)-E(g) &\leq |E(h)-\hat{E}(h)| + |\hat{E}(g)-E(g)| \\ &\leq \epsilon/2 + \epsilon/2 = \epsilon \end{aligned}

这一结论以至少 $1-\delta$ 的概率成立。

12.5 Rademacher复杂度

VC维只关注是否存在一个大小为 $d$ 的集合能被假设空间 $\mathcal{H}$ 完全打散，而完全不考虑这个特定集合在实际数据分布中出现的可能性。这种与数据分布无关的最坏情况度量方式，虽然能够提供理论上的保证，但往往会导致给出的泛化误差上界过于宽松（即过于"悲观"）。为了克服这一局限性，Rademacher复杂度被提出作为更精细的度量工具。

Rademacher复杂度的基本思想发生了重要转变：不再像VC维那样统计假设空间能产生的标签组合数量，而是直接评估假设空间对随机噪声的拟合能力。具体来说，如果一个假设空间能够非常完美地拟合纯粹的随机噪声，那么它在真实数据上就很可能存在严重的过拟合风险。

给定一个固定的训练数据集 $S = \{x_1, x_2, \dots, x_m\}$ ，我们首先完全忽略这些数据点原本的真实标签 $y_i$ 。然后为每个数据点 $x_i$ 独立地生成一个完全随机的噪声标签，称为Rademacher随机变量 $\sigma_i$ ，其定义为：

\sigma_i = \begin{cases} +1 & \text{概率为 } 0.5\\ -1 & \text{概率为 } 0.5 \end{cases}

这样就得到了一个长度为 $m$ 的随机噪声向量 $\boldsymbol{\sigma} = (\sigma_1, \sigma_2, \dots, \sigma_m)$ 。

接下来，我们需要度量函数空间 $\mathcal{F}$ （即假设空间）中任意函数 $f \in \mathcal{F}$ 对随机生成的标签 $\boldsymbol{\sigma}=(\sigma_1,...,\sigma_m)$ 的拟合程度。具体来说，对于每个函数 $f$ ，我们通过计算其预测值向量 $(f(x_1),...,f(x_m))$ 与噪声向量 $\boldsymbol{\sigma}$ 的内积来量化它们的相关性：

\sum_{i=1}^{m} \sigma_i f(x_i)

这个求和结果反映了函数输出与随机噪声的匹配程度：值越大表明函数 $f$ 对噪声 $\boldsymbol{\sigma}$ 的拟合能力越强，意味着假设空间 $\mathcal{F}$ 更容易过拟合带噪声的数据。为了评估整个函数空间的噪声拟合能力，我们需要找到所有函数中最优的拟合情况，因此对于给定的噪声向量 $\boldsymbol{\sigma}$ ，定义函数空间 $\mathcal{F}$ 在样本集 $S=\{x_1,...,x_m\}$ 上的噪声拟合能力为：

\sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i)

由于噪声向量 $\boldsymbol{\sigma}$ 是随机生成的（共有 $2^m$ 种可能的取值），为了获得稳定的度量，我们需要对所有可能的噪声配置取期望。这就引出了经验Rademacher复杂度的定义：给定样本集 $S$ 和函数空间 $\mathcal{F}$ ，其经验Rademacher复杂度 $\hat{\mathfrak{R}}_S(\mathcal{F})$ 定义为：

\hat{\mathfrak{R}}_S(\mathcal{F}) = \mathbb{E}_{\boldsymbol{\sigma}} \left[ \sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i) \right]

经验Rademacher复杂度 $\hat{\mathfrak{R}}_S(\mathcal{F})$ 描述的是针对某个特定样本集 $S$ 的函数类 $\mathcal{F}$ 的复杂度。然而在实际应用中，我们通常希望得到一个与具体抽样无关的度量，它应该仅取决于数据分布 $\mathcal{D}$ 和样本量 $m$ 。为此，我们需要考虑所有可能从 $\mathcal{D}$ 中抽取的大小为 $m$ 的样本集 $S$ ，并对这些样本集上的经验Rademacher复杂度求期望。

基于这个思想，我们定义期望Rademacher复杂度如下： $\mathfrak{R}_m(\mathcal{F}) = \mathbb{E}_{S \sim \mathcal{D}^m} \left[ \hat{\mathfrak{R}}_S(\mathcal{F}) \right] = \mathbb{E}_{S \sim \mathcal{D}^m} \left[ \mathbb{E}_{\boldsymbol{\sigma}} \left[ \sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i) \right] \right]$

Rademacher复杂度的重要性质在于它能够给出泛化误差的紧致上界（其中 $m$ 表示样本数量， $\delta$ 表示置信水平参数）：

\mathbb{E}[f(z)] \le \frac{1}{m}\sum_{i=1}^{m} f(z_i) + 2\mathfrak{R}_m(\mathcal{F}) + \sqrt{\frac{\ln(1/\delta)}{2m}}

\mathbb{E}[f(z)] \le \frac{1}{m}\sum_{i=1}^{m} f(z_i) + 2\hat{\mathfrak{R}}_Z(\mathcal{F}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}

第一个不等式基于期望Rademacher复杂度 $\mathfrak{R}_m(\mathcal{F})$ ，第二个不等式基于经验Rademacher复杂度 $\hat{\mathfrak{R}}_Z(\mathcal{F})$ 。前者提供了理论分析的基础框架，后者则更适合实际应用中的计算估计。具体的证明过程可以参考相关教材中的详细推导。

对于二分类问题，类似的泛化误差界可以表示为：

E(h) \le \hat{E}(h) + \mathfrak{R}_m(\mathcal{H}) + \sqrt{\frac{\ln(1/\delta)}{2m}}

E(h) \le \hat{E}(h) + \hat{\mathfrak{R}}_Z(\mathcal{H}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}

其中 $\mathcal{H}$ 表示假设空间。这些结果的证明同样可以参考标准教材中的相关内容。

最后，我们给出Rademacher复杂度和VC维之间的联系。基于前面得到的第一式：

E(h) \le \hat{E}(h) + \mathfrak{R}_m(\mathcal{H}) + \sqrt{\frac{\ln(1/\delta)}{2m}}

我们引入Massart引理来进一步分析这个上界。Massart引理的内容如下：设 $A$ 是 $\mathbb{R}^m$ 中的一个有限向量集合， $\sigma_1, \dots, \sigma_m$ 是独立的Rademacher随机变量，则有不等式：

\mathbb{E}_{\boldsymbol{\sigma}} \left[ \max_{\mathbf{a} \in A} \sum_{i=1}^{m} \sigma_i a_i \right] \le \left( \max_{\mathbf{a} \in A} \|\mathbf{a}\|_2 \right) \cdot \sqrt{2\ln|A|}

其中 $\|\mathbf{a}\|_2 = \sqrt{\sum_{i=1}^m a_i^2}$ 表示向量 $\mathbf{a}$ 的L2范数。

将这个引理应用到我们的场景中：

\hat{\mathfrak{R}}_S(\mathcal{H}) = \frac{1}{m} \mathbb{E}_{\boldsymbol{\sigma}} \left[ \max_{\mathbf{v} \in \mathcal{H}_S} \sum_{i=1}^{m} \sigma_i v_i \right]

根据Massart引理，经验Rademacher复杂度可以被上界约束为：

\hat{\mathfrak{R}}_S(\mathcal{H}) \le \frac{1}{m} \left( \max_{\mathbf{v} \in \mathcal{H}_S} \|\mathbf{v}\|_2 \right) \cdot \sqrt{2\ln|\mathcal{H}_S|}

由于 $\mathcal{H}_S$ 中的每个向量 $\mathbf{v}$ 都是二分类结果（取值为0或1），其L2范数为 $\sqrt{m}$ ，因此可以简化为：

\hat{\mathfrak{R}}_S(\mathcal{H}) \le \frac{1}{m} \cdot \sqrt{m} \cdot \sqrt{2\ln\Pi_{\mathcal{H}}(S)} = \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(S)}{m}}

这个不等式对于任意大小为 $m$ 的样本集 $S$ 都成立，因此我们可以进一步放宽这个上界：

\hat{\mathfrak{R}}_S(\mathcal{H}) \le \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}}

其中 $\Pi_{\mathcal{H}}(m)$ 是假设空间 $\mathcal{H}$ 的增长函数。

将这个结果代回最初的泛化误差界，我们得到：

E(h) \le \hat{E}(h) + \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}} + \sqrt{\frac{\ln(1/\delta)}{2m}}

最后，利用VC维的性质 $\ln\Pi_{\mathcal{H}}(m) \le d\ln\left(\frac{em}{d}\right)$ ，其中 $d$ 是假设空间 $\mathcal{H}$ 的VC维，我们得到最终的泛化误差界：

E(h) \le \hat{E}(h) + \sqrt{\frac{2d\ln\left(\frac{em}{d}\right)}{m}} + \sqrt{\frac{\ln(1/\delta)}{2m}}

即Rademacher复杂度和增长函数可以推导出VC维的泛化误差界

12.6 稳定性

在之前的讨论中，我们始终以假设空间 $\mathcal{H}$ 作为主要研究对象。现在我们需要关注学习算法本身的特性——具体来说，当训练数据集 $S$ 发生微小变化（例如增加或删除一个样本）时，研究该算法输出的假设 $h_S$ 会产生怎样的变化。这里需要特别注意的是，实际学习算法在寻找解的过程中并不会穷举整个假设空间 $\mathcal{H}$ ，而是根据优化策略在特定的子空间中进行搜索。这就引出一个重要问题：能否避免传统分析方法中针对假设空间全局最坏情况的保守估计，转而分析具体学习算法在实际训练过程中表现出的行为模式？这种针对性研究有望得到与实际应用场景更匹配且数学上更精确的泛化性能保证。

算法稳定性理论的提出正是为了回答这个问题。其基本思想可以表述为：对于一个泛化性能良好的学习算法，当其在训练集 $D$ 上学习得到假设 $h_D$ 时，这个结果对训练集中任意单个样本 $(x_i,y_i)$ 的变化应该保持相对稳定。这种稳定性意味着算法输出不会因为训练样本的微小调整而产生显著波动，从而保证了在未知测试数据上的预测性能具有可靠性。

我们沿用先前定义的符号体系：设有一个由 $m$ 个从未知分布 $\mathcal{D}$ 中独立同分布采样得到的样本 $z_1, \dots, z_m$ 构成的训练集 $D$ ，以及一个学习算法 $\mathfrak{L}$ 。该算法以完整数据集 $D$ 作为输入，从假设空间 $\mathcal{H}$ 中输出一个具体的假设（模型），记作 $\mathfrak{L}_D$ 。

两种微小变化：

$D^{\backslash i}$ ：表示通过从原始数据集 $D$ 中移除第 $i$ 个样本 $z_i$ 后得到的新数据集。其样本量为 $m-1$ ，这是留一法的核心操作方式。
$D^i$ ：表示将原始数据集 $D$ 中的第 $i$ 个样本 $z_i$ 替换为从同一分布 $\mathcal{D}$ 中新独立采样的样本 $z'_i$ 后得到的数据集。其样本量保持为 $m$ ，这是定义算法均匀稳定性时的关键构造方法。

评估算法表现的三个重要指标：

泛化损失：衡量模型在总体分布上的预期表现，定义为： $\ell(\mathfrak{L}, D) = \mathbb{E}_{z \sim \mathcal{D}}[\ell(\mathfrak{L}_D, z)]$
经验损失：衡量模型在训练集上的平均表现，定义为： $\hat{\ell}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_D, z_i)$
留一损失：通过留一法构造的评估指标，定义为： $\ell_{loo}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i)$

对于留一损失：

对于每个样本 $z_i$ （其中 $i=1,\dots,m$ ）：
1. 使用排除 $z_i$ 后的数据集 $D^{\backslash i}$ 训练新模型 $\mathfrak{L}_{D^{\backslash i}}$
2. 用该模型计算在被排除样本 $z_i$ 上的损失值 $\ell(\mathfrak{L}_{D^{\backslash i}}, z_i)$
最后将所有 $m$ 次计算的损失值取平均

由于在计算每个 $\ell(\mathfrak{L}_{D^{\backslash i}}, z_i)$ 时，测试样本 $z_i$ 与训练集 $D^{\backslash i}$ 完全独立，这使得留一损失 $\ell_{loo}(\mathfrak{L}, D)$ 成为泛化损失 $\ell(\mathfrak{L}, D)$ 的无偏估计。数学上表示为： $\mathbb{E}_D[\ell_{loo}(\mathfrak{L}, D)] = \mathbb{E}_D[\ell(\mathfrak{L}, D)]$ 因此， $\ell_{loo}$ 在理论上是泛化误差的一个完美代理指标。现在我们来分析 $\ell_{loo}(\mathfrak{L}, D)$ 和 $\hat{\ell}(\mathfrak{L}, D)$ 之间的差异：

$\ell_{loo}(\mathfrak{L}, D) - \hat{\ell}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \left( \ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_D, z_i) \right)$

让我们仔细观察求和式中的每一项 $\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_D, z_i)$ 。这个差值表示的是：当我们将训练数据集 $D$ 中的第 $i$ 个样本 $z_i$ 移除后，重新训练的模型 $\mathfrak{L}_{D^{\backslash i}}$ 与原始模型 $\mathfrak{L}_D$ 在这个被移除的样本 $z_i$ 上的损失值之差。如果一个学习算法具有稳定性，那么这个差值通常会很小。

基于这个观察，我们引入均匀稳定性的正式定义：一个学习算法 $\mathfrak{L}$ 被称为 $\beta_m$ -均匀稳定的，如果对于任意大小为 $m$ 的数据集 $D$ ，以及通过替换 $D$ 中第 $i$ 个样本得到的任意数据集 $D^i$ （其中 $i \in \{1,...,m\}$ ），以下不等式对所有可能的数据点 $z \in \mathcal{Z}$ 都成立：

$|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| \le \beta_m$ 另外，对于差值 $|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^i}, z)|$ 的估计，我们可以直接应用三角不等式进行分解：

\begin{align} &|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^i}, z)| \\ \leq & |\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| + |\ell(\mathfrak{L}_{D^{i}}, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| \\ \leq & \beta + \beta \\ = & 2\beta \end{align}

这一结果表明：移除示例的稳定性性质可以直接推导出替换示例的稳定性上界。

进一步地，假设学习算法 $\mathfrak{L}$ 满足 $\beta_m$ -均匀稳定性条件，且损失函数 $\ell$ 的取值范围限定在 $[0, M]$ 区间内。那么对于任意置信水平 $0 < \delta < 1$ ，以至少 $1-\delta$ 的概率同时成立以下两个泛化界：

\ell(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + 2\beta_m + (4m\beta_m + M)\sqrt{\frac{\ln(1/\delta)}{2m}} \quad \text{(1)}

\ell(\mathfrak{L}, D) \le \ell_{loo}(\mathfrak{L}, D) + \beta_m + (4m\beta_m+M)\sqrt{\frac{\ln(1/\delta)}{2m}} \quad \text{(2)}

我们首先证明式(2)，这个证明过程中会用到McDiarmid不等式。定义随机变量 $Z$ 作为数据集 $D$ 的函数： $Z(D) = \ell_{loo}(\mathfrak{L}, D) - \ell(\mathfrak{L}, D)$ 需要计算 $c_j = \sup_{D, z'_j} |Z(D) - Z(D^j)|$ ，其中 $D^j$ 表示将 $D$ 中的样本 $z_j$ 替换为 $z'_j$ 得到的新数据集。根据定义，差值可以表示为： $|Z(D) - Z(D^j)| = |(\ell_{loo}(D) - \ell(D)) - (\ell_{loo}(D^j) - \ell(D^j))|$ 应用三角不等式，这个差值可以被拆分为两部分： $\le |\ell(\mathfrak{L}, D) - \ell(\mathfrak{L}, D^j)| + |\ell_{loo}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D^j)|$

第一项： $|\ell(\mathfrak{L}, D) - \ell(\mathfrak{L}, D^j)|$ ，这反映了替换单个样本对模型整体损失的影响。可以展开为： $|\mathbb{E}_z[\ell(\mathfrak{L}_D, z)] - \mathbb{E}_z[\ell(\mathfrak{L}_{D^j}, z)]| \le \mathbb{E}_z[|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^j}, z)|] = 2\beta$ 因此第一项的上界是 $2\beta$ 。

第二项：考察留一损失的变化量 $|\ell_{loo}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D^j)|$ ，这反映了替换单个样本对交叉验证损失的影响。展开表达式： $\left|\frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i^j)\right|$ 其中 $z_i^j$ 表示 $D^j$ 中的第 $i$ 个样本。将求和项分为 $i=j$ 和 $i\neq j$ 两种情况处理： $= \frac{1}{m} \left| (\ell(\mathfrak{L}_{D^{\backslash j}}, z_j) - \ell(\mathfrak{L}_{(D^j)^{\backslash j}}, z'_j)) + \sum_{i\ne j}(\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i)) \right|$

当 $i=j$ 时，两个损失函数值都在 $[0, M]$ 区间内，因此其差的绝对值不超过 $M$
当 $i\neq j$ 时，由于 $D^{\backslash i}$ 和 $(D^j)^{\backslash i}$ 这两个训练集仅相差一个样本（ $z_j$ 与 $z'_j$ ），所以类似第一部分有： $|\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i)| \le 2\beta$

综合这两部分结果，可以得到： $\le \frac{1}{m} (M + (m-1)\cdot 2\beta) \le \frac{M}{m} + 2\beta$

最终得到 $c_j$ 的上界： $c_j = \sup |Z(D) - Z(D^j)| \le 2\beta + \left(\frac{M}{m} + 2\beta\right) = 4\beta + \frac{M}{m}$ 接下来我们定义期望泛化误差 $\mathbb{E}[Z(D)]$ 为留一误差期望与训练误差期望之差： $\mathbb{E}[Z(D)] = \mathbb{E}[\ell_{loo}(\mathfrak{L}, D)] - \mathbb{E}[\ell(\mathfrak{L}, D)]$

关于留一误差的无偏性：由于 $\ell_{loo}$ 是 $\ell$ 的近似无偏估计，其期望可以展开为： $\mathbb{E}[\ell_{loo}(\mathfrak{L}, D)] = \mathbb{E}\left[\frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i)\right] = \mathbb{E}[\ell(\mathfrak{L}_{D^{\backslash 1}}, z_1)] = \mathbb{E}[\ell(\mathfrak{L}, D^{\backslash 1})]$ 中间的等式成立是基于数据独立同分布的对称性，即任意删除一个样本后的期望结果相同。

将上述结果代入可得： $\mathbb{E}[Z(D)] = \mathbb{E}[\ell(\mathfrak{L}, D^{\backslash 1})] - \mathbb{E}[\ell(\mathfrak{L}, D)]$ 进一步表示为： $= \mathbb{E}_{D, z_m', z_m}\left[\ell(\mathfrak{L}_{D^{\backslash m}}, z_m')\right] - \mathbb{E}_{D, z_m'}\left[\ell(\mathfrak{L}_{D}, z_m')\right]$ $= \mathbb{E}_{D, z_m'}\left[\ell(\mathfrak{L}_{D^{\backslash m}}, z_m') - \ell(\mathfrak{L}_D, z_m')\right]$

括号内是负的均匀稳定性，最终可得： $\mathbb{E}[Z(D)] \ge \mathbb{E}[-\beta] = -\beta$ 最后应用McDiarmid不等式，可以得到以下概率不等式：

$\mathbb{P}\left(Z(D) - \mathbb{E}[Z(D)] \le -\epsilon\right) \le \exp\left(-\frac{2\epsilon^2}{\sum_{j=1}^m c_j^2}\right)$

其中，我们计算了 $c_j$ 的平方和上界：

$\sum_{j=1}^m c_j^2 \le \sum_{j=1}^m (4\beta + M/m)^2 = m(4\beta + M/m)^2$

为了将概率上界表示为 $\delta$ ，我们设：

$\delta = \exp\left(-\frac{2\epsilon^2}{m(4\beta + M/m)^2}\right)$

通过解这个方程，可以得到 $\epsilon$ 的表达式：

$\epsilon = \sqrt{\frac{m(4\beta + M/m)^2 \ln(1/\delta)}{2}} = (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}}$

这意味着，至少有 $1-\delta$ 的概率，以下不等式成立：

$Z(D) \ge \mathbb{E}[Z(D)] - \epsilon$

将 $Z(D)$ 的定义和 $\mathbb{E}[Z(D)]$ 的下界代入后，可以得到：

$\ell_{loo}(\mathfrak{L}, D) - \ell(\mathfrak{L}, D) \ge -\beta - (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}}$

最后，通过移项整理，我们得到了式 $(2)$ 的最终表达式：

$\ell(\mathfrak{L}, D) \le \ell_{loo}(\mathfrak{L}, D) + \beta + (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}}$

对于式 $(1)$ 的推导，直接从均匀稳定性的定义出发可以得到： $|\hat{\ell}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D)| \le \beta$ 这个不等式可以等价地表示为： $\ell_{loo}(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + \beta$

现在，我们将这个结果代入前面已经证明的式 $(2)$ 中。具体做法是将式 $(2)$ 中的 $\ell_{loo}(\mathfrak{L}, D)$ 替换为其上界 $\hat{\ell}(\mathfrak{L}, D) + \beta$ ： $\ell(\mathfrak{L}, D) \le \underbrace{\ell_{loo}(\mathfrak{L}, D)}_{\le \hat{\ell}(\mathfrak{L}, D) + \beta} + \beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}$

将替换后的表达式展开，我们得到： $\ell(\mathfrak{L}, D) \le (\hat{\ell}(\mathfrak{L}, D) + \beta) + \beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}$

合并同类项后，最终得到式 $(1)$ 的完整表达式： $\ell(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + 2\beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}$ 我们费这么大劲证明了基于稳定性分析导出的算法 $\mathfrak{L}$ 的泛化误差界，它已经说明了我们的算法是可学习的。现在我们将说明若学习算法 $\mathfrak{L}$ 是ERM且稳定的，则假设空间 $\mathcal{H}$ 可学习。其中若学习算法 $\mathfrak{L}$ 所输出的假设满足经验损失最小化，则称算法 $\mathfrak{L}$ 满足经验风险最小化(ERM)原则.

证明在书上，略。