机器学习原理及算法002：PAC 学习理论（二）本文进一步探讨了不可知 PAC 可学习，给出了不可知 PAC 可学习的充

机器学习原理及算法002：PAC 学习理论（二）

Author: Rotch
Date: 2025-09-26

1. 不可知 PAC 可学习的进一步探究

1.1 不可知 PAC 可学习的充分条件

我们回顾 $\mathrm{ERM}$ 法则的工作方式：算法接受一个训练集 $\mathcal{S}$ 并评估任意 $h \in \mathcal{H}$ 的经验误差，最终输出经验误差最小的 $h_{\mathcal{S}}$ . 我们希望 $h_{\mathcal{S}}$ 的泛化误差也是 $\mathcal{H}$ 中最小的（或充分接近最小的泛化误差），一个合理的想法是保证对任意 $h \in \mathcal{H}$ ，其经验误差与泛化误差之间的差值是“一致接近”的，我们给出 $\varepsilon$ -代表性样本的定义：

$\color{blue}{\textbf{Def 2.1 }\mathbf{\varepsilon}\textbf{-代表性样本：}}$ 对于给定的样本空间 $\mathcal{X}$ ，标记空间 $\mathcal{Y}$ ，假设空间 $\mathcal{H}$ ，损失函数 $\mathscr{l}$ 和联合分布 $\mathcal{D}$ ，若训练集 $\mathcal{S}$ 满足下述不等式：

\begin{equation} | L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | \leq \varepsilon, \space \forall h \in \mathcal{H}, \end{equation}

则称训练集 $\mathcal{S}$ 是（关于样本空间 $\mathcal{X}$ ，标记空间 $\mathcal{Y}$ ，假设空间 $\mathcal{H}$ ，损失函数 $\mathscr{l}$ 和联合分布 $\mathcal{D}$ 的） $\varepsilon$ -代表性样本.

下面，我们说明只要训练集 $\mathcal{S}$ 是 $\frac{1}{2}\varepsilon$ -代表性的，就可以保证 $\mathrm{ERM}$ 法则返回一个近似正确的假设.

$\color{blue}{\textbf{Thm 2.2：}}$ 设训练集 $\mathcal{S}$ 是（关于样本空间 $\mathcal{X}$ ，标记空间 $\mathcal{Y}$ ，假设空间 $\mathcal{H}$ ，损失函数 $\mathscr{l}$ 和联合分布 $\mathcal{D}$ 的） $\frac{1}{2}\varepsilon$ -代表性样本，则对任意 $h_{\mathcal{S}} \in \arg\min\limits_{h \in \mathcal{H}}L_{\mathcal{S}}(h)$ ，成立：

\begin{equation} L_{\mathcal{D}}(h_{\mathcal{S}}) \leq \min\limits_{h \in \mathcal{H}}L_{\mathcal{D}}(h) + \varepsilon. \end{equation}

$\color{brown}{\textbf{{Proof：}}}$ 对任意 $h \in \mathcal{H}$ ，成立：

\begin{equation} L_{\mathcal{D}}(h_{\mathcal{S}}) \leq L_{\mathcal{S}}(h_{\mathcal{S}}) + \frac{1}{2}\varepsilon \leq L_{\mathcal{S}}(h) + \frac{1}{2}\varepsilon \leq L_{\mathcal{D}}(h) + \varepsilon. \end{equation}

由 $h$ 的任意性可知式 $(2)$ 成立. $\square$

根据 $\mathrm{Thm 2.2}$ ，如果我们能保证以至少 $1 - \delta$ 的概率获得 $\frac{1}{2}\varepsilon$ -代表性的训练集 $\mathcal{S}$ ，则 $\mathrm{ERM}$ 法则是不可知 PAC 可学习的. 我们引入一致收敛条件来形式化上述过程.

$\color{blue}{\textbf{Def 2.3 一致收敛：}}$ 记样本空间为 $\mathcal{X}$ ，标记空间为 $\mathcal{Y}$ ，损失函数为 $\mathscr{l}$ ；设 $\mathcal{H}$ 是一给定的假设空间，若存在函数 $m_{\mathcal{H}}^{\mathrm{UC}}: (0, \space 1)^2 \rightarrow \mathbb{N}$ ，使得对任意 $\varepsilon, \space \delta \in (0, \space 1)$ 及联合分布 $\mathcal{D}$ ，满足任意从 $\mathcal{D}$ 中独立同分布取得的训练集 $\mathcal{S}$ 在 $| \mathcal{S}| \geq m_{\mathcal{H}}^{\mathrm{UC}}(\varepsilon, \space \delta)$ 时以不小于 $1 - \delta$ 的概率是 $\varepsilon$ -代表性的，则称假设空间 $\mathcal{H}$ 是一致收敛的.

根据一致收敛的定义，我们给出如下定理：

$\color{blue}{\textbf{Thm 2.4 不可知 PAC 可学习的充分条件：}}$ 若假设空间 $\mathcal{H}$ 对函数 $m_{\mathcal{H}}^{\mathrm{UC}}$ 是一致收敛的，那么假设空间 $\mathcal{H}$ 是不可知 PAC 可学习的，且样本复杂度函数 $m_{\mathcal{H}}$ 满足 $m_{\mathcal{H}}(\varepsilon, \space \delta) \leq m_{\mathcal{H}}^{\mathrm{UC}}(\frac{1}{2}\varepsilon, \space \delta)$ .

1.2 有限假设空间是不可知 PAC 可学习的

在《机器学习原理及算法001：PAC 学习理论（一）》中，我们给出了“有限假设空间是不可知 PAC 可学习的”的定理. 为了文章的完整性，我们重新叙述该定理，并给出证明：

$\color{blue}{\textbf{Thm 1.5' 有限假设空间是不可知 PAC 可学习的：}}$ 设假设空间 $\mathcal{H}$ 是有限的，则假设空间 $\mathcal{H}$ 是一致收敛的，从而是不可知 PAC 可学习的，且样本复杂度有上限 $m_{\mathcal{H}}(\varepsilon, \space \delta) \leq \frac{2 (b - a)^2 \ln(2 | \mathcal{H} | / \delta)}{\varepsilon^2}$ .

$\color{brown}{\textbf{{Proof：}}}$ 固定 $\varepsilon, \space \delta$ ，若能找到正整数 $m$ ，使得从任意分布 $\mathcal{D}$ 中独立同分布取得的 $m$ 个点的训练集 $\mathcal{S}$ 是 $\frac{1}{2}\varepsilon$ -代表性的，则命题得证. 形式上，要求：

\begin{equation} \mathbb{P}\left( \forall \space h \in \mathcal{H}, \space |L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | \leq \frac{1}{2}\varepsilon \right) \geq 1 - \delta, \end{equation}

这等价于：

\begin{equation} \mathbb{P}\left( \exist \space h \in \mathcal{H}, \space |L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | > \frac{1}{2}\varepsilon \right) < \delta. \end{equation}

设损失函数 $\mathscr{l} \in [a, \space b]$ ，由 Hoeffding 不等式，不难注意到不等式左边满足：

\begin{equation} \mathbb{P}\left( \exist \space h \in \mathcal{H}, \space |L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | > \frac{1}{2}\varepsilon \right) \leq 2 | \mathcal{H} | \cdot \exp(\frac{-m \varepsilon^2}{2(b - a)^2}). \end{equation}

令不等式右侧小于 $\delta$ ，得：

\begin{equation} m \geq \frac{2 (b - a)^2 \ln(2 | \mathcal{H} | / \delta)}{\varepsilon^2}. \end{equation}

于是有限假设空间 $\mathcal{H}$ 是一致收敛的，从而是不可知 PAC 可学习的. $\square$

1.3 离散化技巧

$\text{Thm 1.5}$ 仅适用于有限假设空间，对于无限假设空间，我们往往在实际应用中将其转化为有限假设空间. 例如，对于假设空间：

\begin{equation} \mathcal{H}_2 = \{h_{\theta} : \theta \in \mathbb{R}, \space h_{\theta}(x) = \mathrm{sign}(x - \theta) \}, \end{equation}

其显然是无限的. 但在实际应用中，我们一般使用浮点数记录 $\theta$ ，这使得 $\theta$ 的可能取值数量为 $2^{64}$ . 从而有样本复杂度上限：

\begin{equation} m_{\mathcal{H}_2}(\varepsilon, \space \delta) \leq \frac{2 (b - a)^2 [64 \ln2 + \ln(2 / \delta)]}{\varepsilon^2}. \end{equation}

这一上限是容易接受的，但其依赖于机器的精度. 在后面的章节中，我们会为无限假设空间引入新的样本复杂度估计方法，而离散化技巧可以用于对样本复杂度上限的粗略估计.

2. 假设空间的选取分析

2.1 没有免费的午餐定理

在前文中，我们指出了某些训练数据会导致学习算法过拟合. 为了克服该问题，我们提出了“将假设空间限制在一个给定的集合 $\mathcal{H}$ 中”的思想. 例如，在木瓜的例子中，我们限制了假设空间是二维平面下的矩形. 在这一过程中，我们使用了“好吃的木瓜集中在一个近似矩形的区域内”的先验知识. 那么，这样的先验知识是否是必要的？是否存在一个不需要先验知识的通用的学习器，可以完成任何可学习的学习任务呢？下面的定理回答了这一问题

$\color{blue}{\textbf{Thm 2.5 没有免费的午餐（No Free Lunch）: }}$ 对样本空间 $\mathcal{X}$ 上的 $0-1$ 损失的二分任务，对任意学习算法 $\mathfrak{L}$ 及正整数 $m \leq \frac{\vert \mathcal{X} \vert}{2}$ ，存在 $\mathcal{X} \times \{0, \space 1\}$ 上的一个分布 $\mathcal{D}$ ，使得：

存在一个函数 $f: \mathcal{X} \rightarrow \{0, \space 1\}$ 满足 $L_{\mathcal{D}}(f) = 0$ ；
在样本 $\mathcal{S} \sim \mathcal{D}^m$ 上， $L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}$ 的概率至少为 $\frac{1}{7}$ ，其中 $\mathfrak{L}(\mathcal{S})$ 表示学习算法 $\mathfrak{L}$ 在训练集 $\mathcal{S}$ 上返回的假设.

$\color{brown}{\textbf{{Proof：}}}$ 首先，我们选取 $\mathcal{X}$ 的一个大小为 $2m$ 的子集 $C$ ，这一选取的意义是仅在有限的条件下完成证明（等价于不妨设 $\mathcal{X}$ 有限）. 一个直观的想法是，任何只观测到空间 $C$ 中一般样本的算法，都不具有足够的信息量来反映 $C$ 中剩余样本的标签.

随后，我们给出 $\mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] \geq \frac{1}{7}$ 的一个充分条件：

\begin{equation} \mathbb{E}_{\mathcal{S} \sim \mathcal{D}^m} [L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S}))] \geq \frac{1}{4} \implies \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] \geq \frac{1}{7}. \end{equation}

我们反设 $\mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] < \frac{1}{7}$ ，则：

\begin{align} \mathbb{E}_{\mathcal{S} \sim \mathcal{D}^m} [L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})] &< 1 \times \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] + \frac{1}{8} \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) < \frac{1}{8}] \nonumber \\ &< 1 \times \frac{1}{7} + \frac{1}{8} \times \left(1 - \frac{1}{7} \right) = \frac{1}{4} \end{align}

与式 $(10)$ 矛盾，因此式 $(10)$ 是 $\mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] \geq \frac{1}{7}$ 的一个充分条件. 下面我们只需要证明，对任意学习算法 $\mathfrak{L}$ ，其接受 $C \times \{0, \space 1\}$ 上的规模为 $m$ 的训练集 $\mathcal{S}$ ，则存在一个函数 $f : \mathcal{X} \rightarrow \{0, \space 1\}$ 和 $\mathcal{X}$ 的一个分布 $\mathcal{D}$ ，满足：

\begin{equation} L_{\mathcal{D}}(f) = 0, \space \mathbb{E}_{\mathcal{S} \sim \mathcal{D}^m} [L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S}))] \geq \frac{1}{4}. \end{equation}

考虑从 $C$ 到 $\{0, \space 1\}$ 上的全部 $T = 2^{2m}$ 个函数，记为 $f_1, \space f_2, \space \dots, \space f_T$ . 对于每个函数 $f_i$ ，定义 $\mathcal{D}_{\boldsymbol{x}}$ 为 $C$ 上的均匀分布（即： $\mathcal{D}_{\boldsymbol{x}}(\boldsymbol{x}) = \frac{1}{|C|}$ ）及 $C \times \{0, \space 1\}$ 上的分布：

\begin{equation} \mathcal{D}_{\space y \mid \boldsymbol{x}}^{(i)}[(\boldsymbol{x}, \space y)] = \mathbb{I}[f_i(\boldsymbol{x}) = y], \space \mathcal{D}^{(i)} = \mathcal{D}_{\space y \mid \boldsymbol{x}}^{(i)} \times \mathcal{D}_{\boldsymbol{x}}. \end{equation}

换言之，从 $C \times \{0, \space 1\}$ 中任选一对 $(\boldsymbol{x}, \space y)$ ，取到各 $\boldsymbol{x}$ 的概率均等，对于取定的 $\boldsymbol{x}$ ，一定成立 $y = f_i(\boldsymbol{x})$ . 因此有 $L_{\mathcal{D}^{(i)}}(f_i) = 0$ ，于是对式 $(12)$ 的证明可转换为证明下式成立：

\begin{equation} \max\limits_{i \in [T]} \mathbb{E}_{\mathcal{S} \sim [\mathcal{D}^{(i)}]^m} [L_{\mathcal{D}^{(i)}}(\mathfrak{L}(\mathcal{S}))] \geq \frac{1}{4} \end{equation}

对于大小为 $m$ 的训练集 $\mathcal{S}|_{\boldsymbol{x}} \subset C$ ，共计有 $K = (2m)^{m}$ 种取法，分别记为 $\mathcal{S}_1, \space \mathcal{S}_2, \space \dots, \space \mathcal{S}_K$ . 对于 $\mathcal{S}_j = \{ \boldsymbol{x}_1, \space \boldsymbol{x}_2, \space \dots, \space \boldsymbol{x}_m \}$ ，记 $S_j^{(i)} = \{ (\boldsymbol{x}_1, f_i(\boldsymbol{x}_1)), \space (\boldsymbol{x}_2, f_i(\boldsymbol{x}_2)), \space \dots, \space (\boldsymbol{x}_m, f_i(\boldsymbol{x}_m))\}$ . 设分布为 $\mathcal{D}_i$ ，则学习算法 $\mathfrak{L}$ 可能接受到的训练集为 $\mathcal{S}_1^{(i)}, \space \mathcal{S}_2^{(i)}, \space \dots, \space \mathcal{S}_K^{(i)}$ ，且所有训练集取到的概率均等，于是有：

\begin{equation} \mathbb{E}_{\mathcal{S} \sim [\mathcal{D}^{(i)}]^m} [L_{\mathcal{D}^{(i)}}(\mathfrak{L}(\mathcal{S}))] = \frac{1}{k} \sum\limits_{j = 1}^{k} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right]. \end{equation}

考虑所有 $i \in [T]$ ，由最大值大于平均值，平均值大于最小值的基本原理，有：

\begin{align} \max\limits_{i \in [T]} \frac{1}{k} \sum\limits_{j = 1}^{k} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] &\geq \frac{1}{T} \sum\limits_{i = 1}^{T} \frac{1}{k} \sum\limits_{j = 1}^{k} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] \nonumber \\ &= \frac{1}{k} \sum\limits_{j = 1}^{k} \frac{1}{T} \sum\limits_{i = 1}^{T} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] \nonumber \\ & \geq \min\limits_{j \in [K]}\frac{1}{T} \sum\limits_{i = 1}^{T} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right]. \end{align}

固定某个 $j \in [K]$ ，设 $\mathcal{S}_j = \{ \boldsymbol{x}_1, \space \boldsymbol{x}_2, \space \dots, \space \boldsymbol{x}_m \}$ ，记 $C \setminus \mathcal{S}_j = \{\boldsymbol{v}_1, \space \boldsymbol{v}_2, \space \dots, \space \boldsymbol{v}_p \}$ ，显然 $p \geq m$ . 因此，对每个函数 $h : C \rightarrow \{0, \space 1\}$ 和每个 $i \in [T]$ ，有：

\begin{align} L_{\mathcal{D}^{(i)}}(h) &= \frac{1}{2m} \sum\limits_{\boldsymbol{x} \in C} \mathbb{I}[h(\boldsymbol{x}) \not= f_i(\boldsymbol{x})] \nonumber \\ &\geq \frac{1}{2m} \sum\limits_{r = 1}^{p} \mathbb{I}[h(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)] \nonumber \\ &\geq \frac{1}{2p} \sum\limits_{r = 1}^{p} \mathbb{I}[h(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)]. \end{align}

因此有：

\begin{align} \frac{1}{T} \sum\limits_{i = 1}^{T} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] &\geq \frac{1}{T} \sum\limits_{i = 1}^{T} \frac{1}{2p} \sum\limits_{r = 1}^{p} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] \nonumber \\ &= \frac{1}{2p} \sum\limits_{r = 1}^{p} \frac{1}{T} \sum\limits_{i = 1}^{T} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] \nonumber \\ &\geq \frac{1}{2} \min\limits_{r \in [p]} \frac{1}{T} \sum\limits_{i = 1}^{T} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right]. \end{align}

固定某个 $r \in [p]$ ，我们可以将 $f_1, \space f_2, \space \dots, \space f_T$ 分为 $\frac{T}{2}$ 组不相交的函数，即对每对 $(f_i, \space f_{i'})$ 满足 $f_i(\boldsymbol{c}) \not= f_{i'}(\boldsymbol{c})$ 当且仅当 $\boldsymbol{c} = \boldsymbol{v}_r$ . 又由于对每对函数，一定有 $S_j^{(i)} = S_j^{(i')}$ ，且：

\begin{equation} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] + \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i')}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] = 1, \end{equation}

因此有：

\begin{equation} \frac{1}{T} \sum\limits_{i = 1}^{T} \mathbb{I}[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)] = \frac{1}{2}. \end{equation}

联合式子 $(15) \sim (20)$ ，可知式 $(14)$ 成立，定理得证. $\square$

上述定理说明，对于任意学习算法，都存在一个学习任务使其失败，即便这个学习任务可以被另一个学习算法成功学习. 从另一个角度描述，考虑 $\mathcal{F} = \{h : h : \mathcal{X} \rightarrow \{0, \space 1\} \}$ ，即从 $\mathcal{X}$ 到 $\{0, \space 1\}$ 的全体映射，易知 $\mathcal{F}$ 是没有任何先验知识的，则对任何学习算法，都存在某一个学习任务使得学习算法根据 $\mathcal{F}$ 返回的假设是失败的. 形式上，我们给出如下定理：

$\color{blue}{\textbf{Cor 2.6: }}$ 令 $\mathcal{X}$ 为无限样本空间， $\mathcal{F} = \{h : h : \mathcal{X} \rightarrow \{0, \space 1\} \}$ ，则 $\mathcal{F}$ 不是 PAC 可学习的.

$\color{brown}{\textbf{{Proof：}}}$ 反设 $\mathcal{F}$ 是 PAC 可学习的，取 $\varepsilon < \frac{1}{8}, \space \delta < \frac{1}{8}$ ，由 PAC 可学习的定义，存在正整数 $m$ ，使得在任意分布 $\mathcal{D}$ 上独立同分布取得的包含 $m$ 个样本的训练数据 $\mathcal{S}$ 上， $L_{\mathcal{D}}(h_{\mathcal{S}}) < \varepsilon$ 以大于 $(1 - \delta)$ 的概率成立，其中 $h_{\mathcal{S}}$ 是学习算法在训练数据 $\mathcal{S}$ 上返回的假设. 但是应用 NFL 定理，由于 $|\mathcal{X}| > 2m$ ，对于该学习算法，存在一个分布 $\mathcal{D}'$ ，使得以大于 $\frac{1}{7} > \delta$ 的概率， $L_{\mathcal{D}}(h_{\mathcal{S}}) > \frac{1}{8} > \varepsilon$ 成立，这与假设矛盾，从而可知 $\mathcal{F}$ 不是 PAC 可学习的. $\square$

为避免上文所述的失败，我们可以利用特定学习任务的先验知识，这需要我们对假设的全体做一个有效的限制. 那么什么样的限制是有效的呢？一方面，我们希望最优的假设（ $L_{\mathcal{D}}(h)$ 最小的 $h$ ）在假设空间 $\mathcal{H}$ 中；另一方面，我们已经明晰不能选取给定样本空间上全体函数类作为假设空间. 在下一节，我们将对假设空间 $\mathcal{H}$ 的误差进行分解，从而对假设空间 $\mathcal{H}$ 的选取进行分析.

2.2 误差分解

我们首先将 $\mathrm{ERM}_{\mathcal{H}}$ 的误差分解为两部分，设 $h_{\mathcal{S}}$ 是 $\mathrm{ERM}_{\mathcal{H}}$ 在训练数据 $\mathcal{S}$ 上返回的假设，则：

\begin{equation} L_{\mathcal{D}}(h_{\mathcal{S}}) = \underbrace{\min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h)}_{\varepsilon_{\mathrm{app}}} + \underbrace{\left[ L_{\mathcal{D}}(h_{\mathcal{S}}) - \min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h) \right]}_{\varepsilon_{\mathrm{est}}}. \end{equation}

其中 $\varepsilon_{\mathrm{app}}$ 称为逼近误差，这一误差完全由假设空间 $\mathcal{H}$ 造成，是 $\mathcal{H}$ 中假设的泛化误差最小值，当假设空间扩增时，逼近误差减小； $\varepsilon_{\mathrm{est}}$ 称为估计误差，这一误差是逼近误差与 $\mathrm{ERM}_{\mathcal{H}}$ 返回的假设的泛化误差之间的差异，估计误差会随着训练数据集大小 $m$ 的增加而呈下降趋势.

我们的目标是使 $L_{\mathcal{D}}(h_{\mathcal{S}})$ 最小化，这使得我们面临着一个权衡：逼近误差—估计误差权衡：当选择一个较丰富的假设空间时，逼近误差减小，但估计误差增大，造成过拟合；当选择一个较简单的假设空间时，估计误差减小，但逼近误差增大，造成欠拟合. 因此，我们需要选取一个规模适中的假设空间 $\mathcal{H}$ ，从而平衡逼近误差与估计误差.

在《机器学习原理及算法001：PAC 学习理论（一）》中，我们提出 Bayes 假设是处理二分类问题的最优假设，因此 $\mathcal{H}$ 的一个好的选择是仅包含 Bayes 假设. 但由于样本空间的真实分布 $\mathcal{D}$ 未知，我们无法构造出 Bayes 假设.

学习理论的研究重点便是如何使得 $\mathcal{H}$ 足够丰富的同时保持合适的估计误差，这意味着我们着重研究对某个域选取一个“好”的假设空间. 这说明尽管我们不知道如何构造最优假设，但根据已有的先验知识，我们能有足够的信心构造出一个假设空间，其中包含优秀的假设. 回到木瓜的例子，尽管我们不知道最优的假设是什么，但我们知道使用矩形区域划分好吃与不好吃是一个很好的选择.

附录

A. 一些说明

满足一致收敛的假设空间又称 Glivenko-Cantelli 类，这是以科学家 Valery Ivanovich 和 Francesco Paolo Cantelli 来命名的，它们提出了一致收敛与可学习的关系. 在二分类问题中，一致收敛是可学习的充分必要条件，但在一般的学习问题中并非如此.
Wolpert 和 Macready 从优化角度证明了 NFL 定理，这与本文证明的理论不同，但本文所证的定理为下一章的 VC 维理论提供了理论保障.
在一些文献中， $\varepsilon_{\mathrm{app}}$ 并非指代 $\min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h)$ ，而是指 $\min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h) - \varepsilon_{\mathrm{Bayes}}$ ，其中 $\varepsilon_{\mathrm{Bayes}}$ 是 Bayes 假设的泛化误差.