机器学习原理及算法001：PAC 学习理论（一）本文阐述了机器学习中重要的 PAC 学习原理，介绍了 PAC 可学习和不

机器学习原理及算法001：PAC 学习理论（一）

Author: Rotch
Date: 2025-09-22

1. 学习模型的基本框架

在学习机器学习前，我们引入 PAC 学习理论，该理论阐明了什么样的问题是可以被机器学习的. 而在介绍该理论之前，我们需要先搭建学习模型的基本框架，以建立机器学习与数学间的联系.

1.1 学习模型的输入

以监督学习为例，记样本空间 $\mathcal{X}$ 是由我们希望为其标注标签的全体点构成的集合；标记空间 $\mathcal{Y}$ 是所有可能的标签构成的集合，学习模型的输入是一个多重集合 $\mathcal{S} = \{ (\boldsymbol{x}_1, \space y_1), \space (\boldsymbol{x}_2, \space y_2), \space \dots, \space (\boldsymbol{x}_m, \space y_m) \} \subset \mathcal{X} \times \mathcal{Y}$ ，称为训练集.

$\color{brown}{\textbf{Remark：}}$ 上述定义表明，训练集 $\mathcal{S}$ 可包含重复的数据，也可包含若干样本点相同但标签不同的数据.

$\color{brown}{\textbf{Example：}}$ 假设学习的目标是判断一个木瓜是否好吃，我们可以选择木瓜的颜色和软硬程度两个属性描述木瓜. 将木瓜的这两个属性映射到实数集 $\mathbb{R}$ 上，便可以用一个二维向量 $(x_1, \space x_2)$ 来描述一个木瓜，称为木瓜的特征向量. 此时样本空间定义为 $\mathcal{X} = \mathbb{R}^2$ ，标记空间可记为 $\mathcal{Y} = \{0, \space 1\}$ ，其中 $0$ 表示不好吃， $1$ 表示好吃. 任意多重集合 $\mathcal{S} \subset \mathcal{X} \times \mathcal{Y}$ 是一组训练集. “样本点相同但标签不同的数据”可以解释为当两个木瓜具有相同的属性时，其中一个好吃，另一个不好吃.

1.2 学习模型的输出

学习模型的输出称为假设，一个假设是指一个映射 $h: \mathcal{X} \rightarrow \mathcal{Y}$ ，对任意的 $\boldsymbol{x} \in \mathcal{X}$ ， $h(\boldsymbol{x})$ 是学习模型对样本 $\boldsymbol{x}$ 的标签预测.

假设实际上是对概念的近似，一个概念是指一个映射 $c : \mathcal{X} \rightarrow \mathcal{Y}$ ，其代表了样本空间与标记空间的真实对应关系（在本文中我们假设这样的 $c$ 存在，在以后我们将放宽该假设），假设 $c$ 是我们希望学习到的“规律”. 概念的全体称为概念类，记作 $\mathcal{C}$ .

1.3 学习模型的评估

对学习模型的评估主要体现为对模型输出的假设的正确性评估，亦即学习模型的正确性是 $h(\boldsymbol{x}) = c(\boldsymbol{x})$ 的概率（不妨设 $\mathcal{C} = \{c\}$ 是单点集）. 换句话说，学习模型的误差是 $h(\boldsymbol{x}) \not= c(\boldsymbol{x})$ 的概率. 以二分类问题为例（即： $\mathcal{Y} = \{ 0, \space 1\}$ ），定义假设 $h$ 的泛化误差为：

\begin{equation} L_{\mathcal{D}, c}(h) = \mathbb{P}_{\boldsymbol{x} \sim \mathcal{D}} \left[ h(\boldsymbol{x}) \not= c(\boldsymbol{x}) \right], \end{equation}

其中 $\mathcal{D}$ 是样本空间 $\mathcal{X}$ 的分布，下标 $(\mathcal{D}, \space c)$ 表示泛化误差与样本空间的分布与概念有关，后续我们将省略该下标.

在实际应用中，我们并不清楚数据的真实分布 $\mathcal{D}$ 和概念 $c$ ，学习模型并不能直接计算出 $L_{\mathcal{D}, c}(h)$ . 因此我们将目光从 $(\mathcal{D}, \space c)$ 转移到 $\mathcal{S}$ 上：由于 $\mathcal{S}$ 中的样本是从 $\mathcal{D}$ 中独立同分布取得的，且 $c(\boldsymbol{x}_i) = y_i$ ，我们可以通过训练集来估计泛化误差. 定义假设 $h$ 的经验误差为：

\begin{equation} L_{\mathcal{S}}(h) = \frac{1}{m}\sum\limits_{i = 1}^{m} \mathbb{I}\left[ h(\boldsymbol{x}_i) \not= c(\boldsymbol{x}_i) \right]. \end{equation}

其中 $m = | \mathcal{S} |$ ，下同. 容易证明成立 $\mathbb{E}\left[ L_{\mathcal{S}}(h) \right] = L_{\mathcal{D}, c}(h)$ ，这说明泛化误差是经验误差的期望，经验误差是泛化误差的无偏估计. 通过最小化 $L_{\mathcal{S}}(h)$ 获得最优假设 $h$ 的过程称为经验风险最小化（Empirical Risk Minimization, ERM）. 形式上记为：

\begin{equation} \mathrm{ERM}(\mathcal{S}) = \arg\min\limits_{h} L_{\mathcal{S}}(h). \end{equation}

最后，我们补充说明：对于任意两个假设 $h_1, \space h_2$ ，其之间的差别可用下式衡量：

\begin{equation} d(h_1, \space h_2) = \mathbb{P}_{\boldsymbol{x} \sim \mathcal{D}}\left[ h_1(\boldsymbol{x}) \not= h_2(\boldsymbol{x}) \right]. \end{equation}

1.4 过拟合与归纳偏置

尽管 $\mathrm{ERM}$ 看似合理，但在某些情况下，由 $\mathrm{ERM}$ 得到的假设也会失败.

$\color{brown}{\textbf{Example：}}$ 仍然考虑前文提到的木瓜分类问题，考虑如下预测：

\begin{equation} h_{\mathcal{S}}(\boldsymbol{x}) = \begin{cases} y_i, & \exist \space i \in [m], \text{ s.t. } \boldsymbol{x} = \boldsymbol{x}_i \\ 0, & \text{otherwise} \end{cases}. \end{equation}

虽然对任意样本 $\mathcal{S}$ ，成立 $L_{\mathcal{S}}(h_{\mathcal{S}}) = 0$ （这使得 $\mathrm{ERM}$ 很有可能返回 $h_{\mathcal{S}}$ ），但是 $h_{\mathcal{S}}$ 在实际应用中不一定很理想（即 $L_{\mathcal{D}, c}(h_{\mathcal{S}})$ 可能很大），导致学习的效果较差. 这样的情况称为过拟合.

$\color{brown}{\textbf{Remark：}}$ 上式定义的 $h_{\mathcal{S}}(\boldsymbol{x})$ 带有明显的“人工痕迹”. 事实上，若定义 $p(\boldsymbol{x}) = -\prod\limits_{y_i = 1} \parallel \boldsymbol{x} - \boldsymbol{x}_i \parallel_1$ ，则 $h_{\mathcal{S}}(\boldsymbol{x}) = 1$ 当且仅当 $p(\boldsymbol{x}) \geq 0$ . 这样定义的假设 $h'_{\mathcal{S}}(\boldsymbol{x}) = \mathbb{I}[p(\boldsymbol{x}) \geq 0]$ 则十分自然，这也表明若使用全体多项式作为待选假设， $\mathrm{ERM}$ 可能导致过拟合.

尽管 $\mathrm{ERM}$ 可能导致过拟合，但相较于抛弃 $\mathrm{ERM}$ ，更好的选择是对其进行修正. 我们可以预先为学习模型指定一个可选择的假设集合 $\mathcal{H} = \{h\}$ ，称为假设空间. 对于给定的训练集 $\mathcal{S}$ 和假设空间 $\mathcal{H}$ ， $\mathrm{ERM}_{\mathcal{H}}$ 要求在 $\mathcal{H}$ 中寻找经验误差最小的假设，形式上记为：

\begin{equation} \mathrm{ERM}_{\mathcal{H}}(\mathcal{S}) = \arg\min\limits_{h \in {\mathcal{H}}} L_{\mathcal{S}}(h). \end{equation}

$\mathrm{ERM}_{\mathcal{H}}$ 称为带归纳偏置的经验风险最小化（ERM with Inductive Bias）.

$\color{brown}{\textbf{Example：}}$ 对于木瓜分类问题，我们可以选择 $\mathbb{R}^2$ 下的矩形 $[a, \space b] \times [c, \space d]$ 作为假设空间：将矩形中的样本标记为 $1$ ，将其它的样本标记为 $0$ . 这样，我们更倾向于在一个特别的假设集合中选取合理的假设，可以在一定程度上避免过拟合.

显然， $\mathrm{ERM}_{\mathcal{H}}$ 仍然不足以防止过拟合. 在学习理论中，一个基本的问题是：选择哪种假设空间不会导致过拟合？本系列博客将在后续章节中探讨该问题.

2. PAC 学习理论

2.1 PAC 学习理论基础

设假设空间为 $\mathcal{H}$ ，概率近似学习理论（PAC 学习理论，Probably Approximately Correct）关注的核心问题是：一个学习算法 $\mathfrak{L}$ 好不好？要解决该问题，首先要定义什么是“好”的学习算法，我们依次从以下两个角度考虑：

算法返回的假设要否近似正确：算法得到的假设 $h$ 的泛化误差要尽可能小，即：当给定 $\varepsilon > 0$ 时，要求 $L_{\mathcal{D}, c}(h) \leq \varepsilon$ ，我们称这样的假设是一个近似正确的假设；
算法能以一定概率返回近似正确的假设：算法能以一定的概率下返回近似正确假设，即：对给定 $\delta \in (0, 1)$ ，成立 $\mathbb{P} \left[ L_{\mathcal{D}, c}(h) \leq \varepsilon \right] \geq 1 - \delta$ .

$\color{brown}{\textbf{Remark：}}$ 我们对第二点作进一步说明： $\mathrm{ERM}$ 规则返回的假设 $h$ 依赖于训练集 $\mathcal{S}$ ，而 $\mathcal{S}$ 可能对于分布 $\mathcal{D}$ 不具有代表性（在 $\mathrm{ERM}_{\mathcal{H}}$ 下，这会导致过拟合），使得算法难以返回近似正确的假设. 一般地，我们记训练集不具有代表性的概率为 $\delta$ ，称 $1 - \delta$ 为置信参数.

$\color{brown}{\textbf{Example：}}$ 在木瓜的例子中，若训练集选取的木瓜都是深黄色且软烂的，学习模型便难以预测青色或较硬的木瓜是否好吃，这很容易导致学习模型返回的假设的泛化误差较大.

根据上述讨论，我们给出 PAC 辨识的定义：

$\color{blue}{\textbf{Def 1.1 PAC 辨识（PAC Identify）: }}$ 对给定的 $0 < \varepsilon, \space \delta < 1$ ，所有 $c \in \mathcal{C}$ 和任意给定的分布 $\mathcal{D}$ ，若存在学习算法 $\mathfrak{L}$ ，其返回的假设 $h \in \mathcal{H}$ 满足：

\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h) \leq \varepsilon \right] \geq 1 - \delta, \end{equation}

则称学习算法 $\mathfrak{L}$ 能从假设空间 $\mathcal{H}$ 中 PAC 辨识概念类 $\mathcal{C}$ .

PAC 辨识保证了学习算法 $\mathfrak{L}$ 能以较高概率（不小于 $1 - \delta$ ）学得概念 $c$ 的近似假设（误差至多为 $\varepsilon$ ，称为精度参数）.

2.2 PAC 可学习

接下来，我们要明晰概念类 $\mathcal{C}$ 能否被学习算法 $\mathfrak{L}$ 习得，我们给出 PAC 可学习的定义：

$\color{blue}{\textbf{Def 1.2 PAC 可学习（PAC Learnable）: }}$ 对 $0 < \varepsilon, \space \delta < 1$ 和任意给定的分布 $\mathcal{D}$ ，若存在学习算法 $\mathfrak{L}$ 和函数 $m: (0, 1)^2 \rightarrow \mathbb{N}$ ，使得当从分布 $\mathcal{D}$ 中独立同分布取得的样本数量 $m \geq m\left( \varepsilon, \space \delta \right)$ 时， $\mathfrak{L}$ 能从假设空间 $\mathcal{H}$ 中 PAC 辨识概念类 $\mathcal{C}$ ，则称概念类 $\mathcal{C}$ 对假设空间 $\mathcal{H}$ 是 PAC 可学习的.

多项式 $m: (0, 1)^2 \rightarrow \mathbb{N}$ 决定了训练集的采样复杂度，即保证学习模型返回概率近似正确假设所需的样本数量. 以下给出最简单的情况：当概念 $c \in \mathcal{H}$ 且 $\vert \mathcal{H} \vert < \infty$ 时，概念 $c$ 对 $\mathcal{H}$ 是 PAC 可学习的，且采样复杂度满足 $m \leq \Bigg\lceil \frac{1}{\varepsilon} \left( \ln \vert \mathcal{H} \vert + \ln \frac{1}{\delta} \right) \Bigg\rceil$ .

$\color{brown}{\textbf{Proof：}}$ 既然有 $c \in \mathcal{H}$ ，那么只需在算法中淘汰掉 $\mathcal{H}$ 中与训练集 $\mathcal{S}$ 不能完美匹配的假设，直至 $\mathcal{H}$ 中仅剩一个假设，即得到 $c$ . 通常情况下，由于训练集规模有限，假设空间中可能不止一个与 $\mathcal{S}$ 匹配，且上述算法无法区分这些假设的优劣. 于是，我们要讨论的问题转换为：究竟需要多大规模的训练集，才能保证 $c$ 是可以被以不小于 $1 - \delta$ 的概率筛选出来？只需使：

\begin{equation} \mathbb{P}\left[ h \in \mathcal{H} : L_{\mathcal{D}, c}(h) > \varepsilon \land L_{\mathcal{S}}(h) = 0 \right] < \delta. \end{equation}

假设 $h$ 的泛化误差大于 $\varepsilon$ ，对分布 $\mathcal{D}$ 上随机采样得到的任何样例 $(\boldsymbol{x}, y)$ ，有：

\begin{align} \mathbb{P}\left[ h(\boldsymbol{x}) = y \right] &= 1 - \mathbb{P}\left[ h(\boldsymbol{x}) \not= y \right] \nonumber \\ &= 1 - L_{\mathcal{D}, c}(h) \nonumber \\ &< 1 - \varepsilon. \end{align}

故 $h$ 在 $\mathcal{S}$ 上表现完美的概率为：

\begin{align} \mathbb{P}\left[ L_{\mathcal{S}}(h) = 0 \right] &= \mathbb{P}\left[ h(\boldsymbol{x}_i) = y_i, \space \forall (\boldsymbol{x}_i, \space y_i) \in \mathcal{S} \right] \nonumber \\ &= (\mathbb{P}\left[ h(\boldsymbol{x}) = y \right])^m \nonumber \\ &< (1 - \varepsilon)^m. \end{align}

因此有：

\begin{equation} \mathbb{P}\left[ h \in \mathcal{H} : L_{\mathcal{D}, c}(h) > \varepsilon \land L_{\mathcal{S}}(h) = 0 \right] < \vert \mathcal{H} \vert (1 - \varepsilon)^m < \vert \mathcal{H} \vert \mathrm{e}^{-m \varepsilon}. \end{equation}

令不等式右侧不大于 $\delta$ ，得：

\begin{equation} m \geq \dfrac{1}{\varepsilon} \left( \ln \vert \mathcal{H} \vert + \ln \dfrac{1}{\delta} \right). \end{equation}

由此可见，概念 $c$ 是 PAC 可学习的. $\square$

2.3 不可知 PAC 可学习

在实际生活中， $c \in \mathcal{H}$ 一般不成立. 我们需要对该过程进行进一步讨论（这里我们仍然认为 $\vert \mathcal{H} \vert < \infty$ ）. 首先，我们有如下引理：

$\color{blue}{\textbf{Lem 1.3 Hoeffding 不等式: }}$ 设 $X_1, \space X_2, \space \dots, \space X_n$ 是独立同分布的随机变量，其中 $X_i \in [a_i, b_i], \space i = 1, \space 2, \space \dots, \space n$ . 记这些随机变量的均值为 $\overline{X} = \frac{1}{n}\sum\limits_{i = 1}^{n} X_i$ ，则对任意 $\varepsilon > 0$ ，成立：

\begin{equation} \mathbb{P} \left( \vert \overline{X} - \mathbb{E}(\overline{X}) \vert \geq \varepsilon \right) \leq 2 \exp\left( -\frac{2\varepsilon^2 n^2}{\sum\limits_{i = 1}^{n}(b_i - a_i)^2} \right). \end{equation}

对于 PAC 学习理论，固定 $h$ ，将 $\overline{X} = L_{\mathcal{S}}(h)$ ， $\mathbb{E} (\overline{X}) = L_{\mathcal{D}, c}(h)$ ， $a_i = 0, \space b_i = 1 \space (i = 1, 2, \dots, n)$ 代入，得：

\begin{equation} \mathbb{P} \left( \vert L_{\mathcal{S}}(h) - L_{\mathcal{D}, c}(h) \vert \geq \varepsilon \right) \leq 2 \exp\left( -2m\varepsilon^2 \right). \end{equation}

类似前文的讨论，考虑：

\begin{equation} \mathbb{P}\left[ h \in \mathcal{H} : \vert L_{\mathcal{S}}(h) - L_{\mathcal{D}, c}(h) \vert \geq \varepsilon \right] \leq 2 \vert \mathcal{H} \vert \exp\left( -2m\varepsilon^2 \right). \end{equation}

令不等式右侧等于 $\delta$ ，有：

\begin{equation} \varepsilon = \sqrt{\frac{\ln \vert \mathcal{H} \vert + \ln(\delta / 2)}{2m}}, \end{equation}

从而有：

\begin{equation} \mathbb{P} \left( \vert L_{\mathcal{S}}(h) - L_{\mathcal{D}, c}(h) \vert \leq \sqrt{\frac{\ln \vert \mathcal{H} \vert + \ln(\delta / 2)}{2m}} \right) \geq 1 - \delta. \end{equation}

在上述推导中，我们并未给出也无法给出 $\mathbb{P} \left[ L_{\mathcal{D}, c}(h) \leq \varepsilon \right]$ 的度量，但是当假设空间 $\mathcal{H}$ 给定且有限时，其中必存在一个泛化误差最小的假设. 我们只需要找出该假设的近似假设即可，以此为目标的学习称为不可知 PAC 可学习.

$\color{blue}{\textbf{Def 1.4 不可知 PAC 可学习（Agnostic PAC Learnable）: }}$ 对 $0 < \varepsilon, \space \delta < 1$ 和任意给定的分布 $\mathcal{D}$ ，若存在学习算法 $\mathfrak{L}$ 和多项式 $m: (0, 1)^2 \rightarrow \mathbb{N}$ ，使得当从分布 $\mathcal{D}$ 中独立同分布取得的样本数量 $m \geq m\left( \varepsilon, \space \delta \right)$ 时， $\mathfrak{L}$ 从假设空间 $\mathcal{H}$ 中输出的假设 $h$ 满足：

\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h) - \min\limits_{h' \in \mathcal{H}} L_{\mathcal{D}, c}(h') \leq \varepsilon \right] \geq 1 - \delta, \end{equation}

则称概念类 $\mathcal{C}$ 对假设空间 $\mathcal{H}$ 是 不可知 PAC 可学习的.

显然，PAC 可学习是不可知 PAC 可学习的特例（前者满足 $\min\limits_{h' \in \mathcal{H}} L_{\mathcal{D}, c}(h') = 0$ ）. 下面说明有限假设空间下概念类 $\mathcal{C}$ 一定是不可知 PAC 可学习的.

$\color{brown}{\textbf{Proof：}}$ 将 $\frac{1}{2}\varepsilon$ 代入式 $(15)$ ，有：

\begin{equation} \mathbb{P} \left( h \in \mathcal{H} : \vert L_{\mathcal{S}}(h) - L_{\mathcal{D}, c}(h) \vert \geq \dfrac{1}{2}\varepsilon \right) \leq 2 \vert \mathcal{H} \vert \exp\left( -\dfrac{m\varepsilon^2}{2} \right). \end{equation}

记 $h^* = \arg\min\limits_{h' \in \mathcal{H}} L_{\mathcal{D}, c}(h')$ ，学习算法返回的假设为 $h_{\mathcal{S}}$ ；记 $\vert L_{\mathcal{S}}(h_{\mathcal{S}}) - L_{\mathcal{D}, c}(h_{\mathcal{S}}) \vert \leq \frac{1}{2} \varepsilon$ 为事件 $A$ ， $\vert L_{\mathcal{S}}(h^*) - L_{\mathcal{D}, c}(h^*) \vert \leq \frac{1}{2} \varepsilon$ 为事件 $B$ ，则由 $\mathrm{ERM}$ 规则可知，当 $A$ 和 $B$ 同时成立时：

\begin{equation} L_{\mathcal{D}, c}(h^*) \leq L_{\mathcal{D}, c}(h_{\mathcal{S}}) \leq L_{\mathcal{S}}(h_{\mathcal{S}}) + \dfrac{1}{2} \varepsilon \leq L_{\mathcal{S}} (h^*) + \dfrac{1}{2}\varepsilon \leq L_{\mathcal{D}, c}(h^*) + \varepsilon. \\ \end{equation}

由 $\mathbb{P}(\overline{A} \cup \overline{B}) \geq 0$ 及 $\mathbb{P}(\overline{A}), \space \mathbb{P}(\overline{B}) \leq 2 \vert \mathcal{H} \vert \exp\left( -\frac{m\varepsilon^2}{2} \right)$ 可得：

\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h_{\mathcal{S}}) - L_{\mathcal{D}, c}(h^*) \leq \varepsilon \right] \geq 1 - \mathbb{P}(\overline{AB}) = 1 + \mathbb{P}(\overline{A} \cup \overline{B}) - \mathbb{P}(\overline{A}) - \mathbb{P}(\overline{B}) \geq 1 - 4\vert \mathcal{H} \vert \exp\left( -\dfrac{m\varepsilon^2}{2} \right), \end{equation}

或等价地：

\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h_{\mathcal{S}}) - L_{\mathcal{D}, c}(h^*) \geq \varepsilon \right] \leq 4\vert \mathcal{H} \vert \exp\left( -\dfrac{m\varepsilon^2}{2} \right), \end{equation}

令不等式右边小于 $\delta$ ，有：

\begin{equation} m \geq \frac{2}{\varepsilon^2} \left( \ln \left( 4\vert \mathcal{H} \vert \right) + \ln \frac{1}{\delta} \right). \space \square \end{equation}

综合上述讨论，我们给出如下结论：

$\color{blue}{\textbf{Thm 1.5 有限假设空间是不可知 PAC 可学习的: }}$ 假设空间 $\mathcal{H}$ 是有限维的，当 $c \in \mathcal{H}$ 时称假设空间 $\mathcal{H}$ 是可分的；否则称假设空间 $\mathcal{H}$ 是不可分的. 当 $\mathcal{H}$ 可分时，概念类 $\mathcal{C}$ 一定是 PAC 可学习的（当然也是不可知 PAC 可学习的）；当 $\mathcal{H}$ 不可分时，概念类 $\mathcal{C}$ 一定是（退化为）不可知 PAC 可学习的.

2.4 理论推广

截至目前，我们以二分类问题为例，在概念 $c$ 存在的基础上给出了 PAC 可学习和不可知 PAC 可学习的定义，并且指出有限假设空间都是不可知 PAC 可学习的. 接下来，我们对该理论进行推广.

首先，我们考虑去除掉对概念 $c$ 的依赖. 这样的操作是合理的，因为在现实生活中，样本与标签的对应关系往往并非确定性映射，而是概率性的对应关系.

$\color{brown}{\textbf{Example：}}$ 在木瓜的例子中，具有同样属性的木瓜可能好吃也可能不好吃，“规律”实际应该表示在该属性下，木瓜好吃的概率和不好吃的概率，而非确定性的“木瓜要么好吃，要么不好吃”.

我们将样本空间的分布 $\mathcal{D}$ 记为 $\mathcal{D}_{\boldsymbol{x}}$ ，将 $\mathcal{X} \times \mathcal{Y}$ 上的分布重新记为 $\mathcal{D}$ ，称为样本空间和标记空间的联合分布. 在此基础上，我们重新定义假设 $h$ 的泛化误差：

\begin{equation} L_{\mathcal{D}}(h) = \mathbb{P}_{(\boldsymbol{x}, y) \sim \mathcal{D}} \left[ h(\boldsymbol{x}) \not= y \right]. \end{equation}

假设 $h$ 的经验误差定义不变. 我们可将上述定义的 PAC 可辨识、PAC 可学习及不可知 PAC 可学习中的 $L_{\mathcal{D}, c}$ 替换为 $L_{\mathcal{D}}$ ，且仍然可以证明有限假设空间是不可知 PAC 可学习的.

其次，我们考虑将二分类的限定推广至多分类和回归问题，这需要我们进一步推广误差函数. 对于给定假设空间 $\mathcal{H}$ 和定义域 $\mathcal{Z}$ ，称 $\mathscr{l}: \mathcal{H} \times \mathcal{Z} \rightarrow \mathbb{R}_+$ 为问题的一个损失函数. 对于多分类问题， $\mathcal{Z} = \mathcal{X} \times \mathcal{Y}$ ；对于回归问题， $\mathcal{Z} = \mathcal{X} \times \mathbb{R}$ . 定义假设 $h$ 的泛化误差与经验误差为：

\begin{align} L_{\mathcal{D}}(h) &= \mathbb{E}_{\boldsymbol{z} \sim \mathcal{D}} \left[ \mathscr{l}(h, \boldsymbol{z}) \right], \nonumber \\ L_{\mathcal{S}}(h) &= \frac{1}{m} \sum\limits_{i = 1}^{m} \mathscr{l}(h, \boldsymbol{z}). \end{align}

在分类问题和回归问题中，损失函数通常分别采用以下两种形式：

$0-1$ 损失： $\mathcal{Z} = \mathcal{X} \times \mathcal{Y}$ ，损失函数为： $\mathscr{l}_{0-1}\left( h, (\boldsymbol{x}, y) \right) = \mathbb{I}(h(\boldsymbol{x}) \not= y)$ ；
平方损失： $\mathcal{Z} = \mathcal{X} \times \mathbb{R}$ ，损失函数为： $\mathscr{l}_{\mathrm{sq}}\left( h, (\boldsymbol{x}, y) \right) = \left( h(\boldsymbol{x}) - y \right)^2$ .

在此基础上，我们可以进一步推广 PAC 可学习及不可知 PAC 可学习的定义：

$\color{blue}{\textbf{Def 1.2' PAC 可学习（PAC Learnable）: }}$ $\mathfrak{Q}$ 是一个学习问题，若对任意给定的 $0 < \varepsilon, \space \delta < 1$ 和联合分布 $\mathcal{D}$ ，存在学习算法 $\mathfrak{L}$ 和函数 $m: (0, 1)^2 \rightarrow \mathbb{N}$ ，使得当从分布 $\mathcal{D}_{\boldsymbol{x}}$ 中独立同分布取得的样本数量 $m \geq m\left( \varepsilon, \space \delta \right)$ 时， $\mathfrak{L}$ 从假设空间 $\mathcal{H}$ 中输出的假设 $h$ 满足：

\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}}(h) \leq \varepsilon \right] \geq 1 - \delta, \end{equation}

则称问题 $\mathfrak{Q}$ 对假设空间 $\mathcal{H}$ 是 PAC 可学习的.

$\color{blue}{\textbf{Def 1.4' 不可知 PAC 可学习（Agnostic PAC Learnable）: }}$ $\mathfrak{Q}$ 是一个学习问题，若对任意给定的 $0 < \varepsilon, \space \delta < 1$ 和联合分布 $\mathcal{D}$ ，存在学习算法 $\mathfrak{L}$ 和函数 $m: (0, 1)^2 \rightarrow \mathbb{N}$ ，使得当从分布 $\mathcal{D}_{\boldsymbol{x}}$ 中独立同分布取得的样本数量 $m \geq m\left( \varepsilon, \space \delta \right)$ 时， $\mathfrak{L}$ 从假设空间 $\mathcal{H}$ 中输出的假设 $h$ 满足：

\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}}(h) - \min\limits_{h' \in \mathcal{H}} L_{\mathcal{D}}(h') \leq \varepsilon \right] \geq 1 - \delta, \end{equation}

则称问题 $\mathfrak{Q}$ 对假设空间 $\mathcal{H}$ 是 不可知 PAC 可学习的.

同样地，我们可以证明无论是多分类问题还是回归问题，有限假设空间都是不可知 PAC 可学习的，这只需注意到前文在证明有限假设空间总是不可知 PAC 可学习时，未使用到 $L_{\mathcal{D}}$ 和 $L_{\mathcal{S}}$ 的真实表达式和概念 $c$ 的任何信息.

附录

A. Hoeffding 不等式证明

$\color{blue}{\textbf{Lem 1.6 Markov 不等式: }}$ 对任意非负随机变量 $X$ 和任意给定实数 $\varepsilon > 0$ ，有：

\begin{equation} \mathbb{P}(X > \varepsilon) \leq \dfrac{1}{\varepsilon} \mathbb{E}(X). \end{equation}

$\color{brown}{\textbf{Proof：}}$ 设 $X$ 的概率密度函数为 $f(x)$ ，则：

\begin{align} \mathbb{E}(X) = \int_{0}^{+\infty} x f(x) \mathrm{d}x &\geq \int_{\varepsilon}^{+\infty} x f(x) \mathrm{d}x \nonumber \\ &\geq \varepsilon \int_{\varepsilon}^{+\infty} f(x) \mathrm{d}x \nonumber \\ &= \varepsilon \mathbb{P}(X \geq \varepsilon). \end{align}

两边同时除以 $\varepsilon$ 即证. $\square$

$\color{blue}{\textbf{Lem 1.7 Hoeffding 引理: }}$ 对任意随机变量 $X$ ，若 $X \in [a, \space b]$ 且 $\mathbb{E}(X) = 0$ ，则对任意实数 $s$ 成立：

\begin{equation} \mathbb{E}(\mathrm{e}^{sX}) \leq \mathrm{e}^{\frac{1}{8}\lambda^2(b - a)^2}. \end{equation}

$\color{brown}{\textbf{Proof：}}$ 记 $f(X) = \mathrm{e}^{\lambda X}$ ，则 $f''(X) = \lambda^2\mathrm{e}^{\lambda X} > 0$ ，因此 $f(x)$ 是凸函数. 由凸函数性质，令 $\theta = \frac{b - X}{b - a} \in (0, \space 1)$ ：

\begin{align} \mathrm{e}^{\lambda X} = f(X) &= f(\theta a + (1 - \theta) b) \geq \theta f(a) + (1 - \theta) f(b) \nonumber \\ &= \dfrac{b - X}{b - a}\mathrm{e}^{\lambda a} + \dfrac{X - a}{b - a}\mathrm{e}^{\lambda b}, \end{align}

对不等式两边同时取期望，得：

\begin{align} \mathbb{E}\left[\mathrm{e}^{\lambda X}\right] = \dfrac{b - \mathbb{E}[X]}{b - a}\mathrm{e}^{\lambda a} + \dfrac{\mathbb{E}[X] - a}{b - a}\mathrm{e}^{\lambda b} = \dfrac{b\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda b}}{b - a}. \end{align}

只需证明：

\begin{equation} \dfrac{b\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda b}}{b - a} \leq \mathrm{e}^{\frac{1}{8}\lambda^2(b - a)^2} \Leftrightarrow \ln \left( \dfrac{b\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda b}}{b - a} \right) \leq \frac{1}{8}\lambda^2(b - a)^2. \end{equation}

令 $t = b - a$ ，则 $b = t + a$ ，有：

\begin{align} \ln \left( \dfrac{b\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda b}}{b - a} \right) &= \ln \left( \dfrac{(t + a)\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda(t + a)}}{t} \right) \nonumber \\ &= \lambda a + \ln \left( t + a - a\mathrm{e}^{\lambda t} \right) - \ln t. \end{align}

记 $\varphi(u) = \lambda a + \ln \left( t + a - a\mathrm{e}^u \right) - \ln t$ ，则对目标不等式的证明等价于证明：

\begin{equation} \varphi(\lambda t) \leq \dfrac{1}{8} (\lambda t)^2. \end{equation}

易知 $\varphi \in C^{\infty}$ ，对 $\varphi(u)$ 进行二阶 Taylor 展开，得：

\begin{equation} \varphi(u) = \varphi(0) + \varphi'(0)u + \dfrac{1}{2}\varphi''(\alpha) u^2, \end{equation}

其中 $\alpha \in (0, \space u)$ ，容易计算：

\begin{align} \varphi(0) &= \lambda a + \ln \left( t + a - a \right) - \ln t = \lambda a, \nonumber \\ \varphi'(0) &= \dfrac{-a\mathrm{e}^{u}}{t + a -a\mathrm{e}^{u}} \Bigg|_{u = 0} = -\dfrac{a}{t}, \nonumber \\ \varphi''(\alpha) &= \dfrac{-a\mathrm{e}^{u}(t + \alpha)}{(t + a -a\mathrm{e}^{u})^2} \Bigg|_{u = \alpha} = \dfrac{-a\mathrm{e}^{u}}{(t + a -a\mathrm{e}^{u})^2} \cdot \left( 1 - \dfrac{-a\mathrm{e}^{u}}{(t + a -a\mathrm{e}^{u})^2} \right)\Bigg|_{u = \alpha} \leq \dfrac{1}{4}. \end{align}

将式 $(37)$ 代入式 $(36)$ ，得：

\begin{equation} \varphi(\lambda t) \leq \lambda a + \left(-\dfrac{a}{t} \cdot \lambda t \right) + \dfrac{1}{2} \cdot \dfrac{1}{4} (\lambda t)^2 = \dfrac{1}{8} (\lambda t)^2. \end{equation}

综上所述，不等式 $(30)$ 得证. $\square$

\begin{equation} \mathbb{P} \left( \vert \overline{X} - \mathbb{E}(\overline{X}) \vert \geq \varepsilon \right) \leq 2 \exp\left( -\frac{2\varepsilon^2 n^2}{\sum\limits_{i = 1}^{n}(b_i - a_i)^2} \right). \end{equation}

$\color{brown}{\textbf{Proof：}}$ 由 Markov 不等式，得：

\begin{equation} \mathbb{P}\left( \overline{X} - \mathbb{E}(\overline{X}) \geq \varepsilon \right) = \mathbb{P}\left[ \exp\left(\lambda[\overline{X} - \mathbb{E}(\overline{X})] \right) \geq \exp\left(\lambda\varepsilon\right) \right] \leq \exp \left(-\lambda\varepsilon \right) \cdot \mathbb{E}\left[ \exp\left( \lambda[\overline{X} - \mathbb{E}(\overline{X})] \right) \right], \end{equation}

其中：

\begin{equation} \mathbb{E}\left[ \exp\left( \lambda[\overline{X} - \mathbb{E}(\overline{X})] \right) \right] = \prod_{i = 1}^{n} \mathbb{E}\left[ \exp\left( \lambda \cdot \dfrac{X_i - \mathbb{E}(X_i)}{n} \right) \right]. \end{equation}

又因为 $\mathbb{E}\left[ \frac{X_i - \mathbb{E}(X_i)}{n} \right] = 0$ ，由 Hoeffding 引理可知：

\begin{equation} \mathbb{E}\left[ \exp\left( \lambda \cdot \dfrac{X_i - \mathbb{E}(X_i)}{n} \right) \right] \leq \exp\left( \lambda^2 \cdot \dfrac{(b_i - a_i)^2}{8n^2} \right). \end{equation}

于是有：

\begin{equation} \mathbb{P}\left( \overline{X} - \mathbb{E}(\overline{X}) \geq \varepsilon \right) \leq \exp\left( -\lambda\varepsilon + \lambda^2 \cdot \dfrac{\sum\limits_{i = 1}^{n}(b_i - a_i)^2}{8n^2} \right). \end{equation}

由于式 $(43)$ 对任意实数 $\lambda$ 成立，取 $\lambda_0$ 使不等式右侧指数项最小，得：

\begin{equation} \mathbb{P}\left( \overline{X} - \mathbb{E}(\overline{X}) \geq \varepsilon \right) \leq \exp\left( -\frac{2\varepsilon^2 n^2}{\sum\limits_{i = 1}^{n}(b_i - a_i)^2} \right). \end{equation}

于是得到：

\begin{equation} \mathbb{P} \left( \vert \overline{X} - \mathbb{E}(\overline{X}) \vert \geq \varepsilon \right) \leq 2 \exp\left( -\frac{2\varepsilon^2 n^2}{\sum\limits_{i = 1}^{n}(b_i - a_i)^2} \right). \space \square \end{equation}

B. Bayes 最优假设

$\color{blue}{\textbf{Thm 1.6 Bayes 最优假设: }}$ 给定 $\mathcal{X} \times \{0, \space 1\}$ 上的任意分布 $\mathcal{D}$ ，将 $\mathcal{X}$ 映射到 $\{0, \space 1\}$ 上的最好的假设为：

\begin{equation} \mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) = \begin{cases} 1, & \mathbb{P}_{(\boldsymbol{x}, y) \sim \mathcal{D}} \left( y = 1 \mid \boldsymbol{x} \right) \geq \dfrac{1}{2} \\ 0, & \text{otherwise} \end{cases}. \end{equation}

$\color{brown}{\textbf{Proof：}}$ 设 $h$ 是任意 $\mathcal{X}$ 到 $\{0, \space 1\}$ 上的假设，则：

\begin{align} L_{\mathcal{D}}(h) - L_{\mathcal{D}}(\mathrm{Bayes}_{\mathcal{D}}) &= \mathbb{E}_{(\boldsymbol{x}, y) \sim \mathcal{D}} [\mathbb{I}(h(\boldsymbol{x}) \not= y)] - \mathbb{E}_{(\boldsymbol{x}, y) \sim \mathcal{D}} [\mathbb{I}(\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) \not= y)] \nonumber \\ &= \mathbb{E}_{\boldsymbol{x} \sim\mathcal{D}_{\boldsymbol{x}}} \left( \mathbb{E}_{y \mid \boldsymbol{x}}\left[ \mathbb{I}(h(\boldsymbol{x}) \not= y) - \mathbb{I}(\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) \not= y) \right] \right). \end{align}

对于任意 $\boldsymbol{x} \in \mathcal{D}_{\boldsymbol{x}}$ ，定义：

\begin{equation} \Delta(\boldsymbol{x}) = \mathbb{I}(h(\boldsymbol{x}) \not= y) - \mathbb{I}(\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) \not= y). \end{equation}

若 $h(\boldsymbol{x}) = \mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x})$ ，则 $\Delta(\boldsymbol{x}) = 0$ ；否则记 $\eta(\boldsymbol{x}) = \mathbb{P}(y = 1 \mid \boldsymbol{x})$ ，当 $\eta(\boldsymbol{x}) \geq \frac{1}{2}$ 时， $\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) = 1$ ，故 $h(\boldsymbol{x}) = 0$ ，有：

\begin{align} &\mathbb{I}(h(\boldsymbol{x}) \not= y) = \mathbb{I}(y = 1), \space \mathbb{I}(\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) \not= y) = \mathbb{I}(y = 0) \nonumber \\ \implies \Delta(\boldsymbol{x}) &= \mathbb{I}(y = 1) - \mathbb{I}(y = 0) = \eta(\boldsymbol{x}) - [1 - \eta(\boldsymbol{x})] = 2\eta(\boldsymbol{x}) - 1 \geq 0. \end{align}

同理，当 $\eta(\boldsymbol{x}) < \frac{1}{2}$ 时， $\Delta(\boldsymbol{x}) = 1 - 2\eta(\boldsymbol{x}) \geq 0$ ，故：

\begin{equation} \mathbb{E}_{y \mid \boldsymbol{x}} \left[ \Delta(\boldsymbol{x}) \right] \geq 0, \space \forall \boldsymbol{x} \in \mathcal{X}, \end{equation}

即：

\begin{equation} L_{\mathcal{D}}(h) - L_{\mathcal{D}}(\mathrm{Bayes}_{\mathcal{D}}) \geq 0. \end{equation}

这说明 $\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x})$ 是 $\mathcal{X}$ 到 $\{0, \space 1\}$ 上的最优假设. $\square$

$\color{brown}{\textbf{Remark：}}$ 在实际应用中，由于不清楚真实分布 $\mathcal{D}$ ，我们不能直接使用 $\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x})$ .

C. 无限假设空间也可能是 PAC 可学习的

无限假设空间也可能是 PAC 可学习的，我们分别给出可列假设空间和连续假设空间上的例子：

$\color{brown}{\textbf{Example 可列假设空间：}}$ 考虑 $\mathcal{X}$ 可列， $\mathcal{Y} = \{0, \space 1\}$ ，令 $\mathcal{H} = \{ h_{\boldsymbol{z}} : \boldsymbol{z} \in \mathcal{X}, \space h_{\boldsymbol{z}}(\boldsymbol{x}) = \mathbb{I}(\boldsymbol{x} = \boldsymbol{z}) \} \cup \{ h^- \equiv 0\}$ ，则当 $\mathcal{H}$ 可分时，问题是 PAC 可学习的.

$\color{brown}{\textbf{Proof：}}$ 根据 $\mathrm{ERM}$ 法则，构建如下算法：若训练集中全部样本点的标记为 $0$ ，则返回 $h^-$ ，否则若存在样本点 $\boldsymbol{z}^*$ 标记为 $1$ ，则返回 $h_{\boldsymbol{z}^*}$ . 若最优假设为 $h^-$ ，算法显然会返回 $h^-$ ， $L_{\mathcal{D}}(h^-) = 0$ ，问题是 PAC 可学习的；若最有假设为 $h_{\boldsymbol{z}^*}$ ，设取样到 $\boldsymbol{z}^*$ 的概率为 $p$ ，则训练集中不包含 $p$ 的概率为 $(1 - p)^m \leq \mathrm{e}^{-pm}$ ，令 $\mathrm{e}^{-pm} \leq \delta$ ，得 $m \geq \frac{1}{p} \ln \frac{1}{\delta}$ ，因而其也是 PAC 可学习的. $\square$

$\color{brown}{\textbf{Example 连续假设空间：}}$ 考虑 $\mathcal{X} = \mathbb{R}^2$ ， $\mathcal{Y} = \{0, \space 1\}$ ，令 $\mathcal{H} = \{ h_r : r \in \mathbb{R}_+, \space h_r(\boldsymbol{x}) = \mathbb{I}(\| \boldsymbol{x} \| \leq r)\}$ ，则当 $\mathcal{H}$ 可分时，问题是 PAC 可学习的.

$\color{brown}{\textbf{Proof：}}$ 根据 $\mathrm{ERM}$ 法则，构建算法返回的假设 $h_{\hat{r}}$ 满足 $\hat{r}$ 等于标记为 $1$ 的样本的范数最大值. 设 $\mathcal{X}$ 的密度函数为 $f(\boldsymbol{x})$ ，记 $F(r) = \int_{\| \boldsymbol{x} \| \leq r} f(\boldsymbol{x}) \mathrm{d}\boldsymbol{x}$ ，最优假设为 $h_{r^*}$ ，则 $\hat{r} \leq r^*$ ，则：

\begin{equation} L_{\mathcal{D}}(h_{\hat{r}}) = \mathbb{P}_{\boldsymbol{x} \sim f} \left[ h_{\hat{r}}(\boldsymbol{x}) \not= h_{r^*}(\boldsymbol{x}) \right] = F(r^*) - F(\hat{r}). \end{equation}

对于任意给定 $\varepsilon \in (0, \space 1)$ ，只需让 $F(r^*) - F(\hat{r}) \leq \varepsilon$ . 若 $F(r^*) \leq \varepsilon$ ，不等式直接成立，不妨设 $F(r^*) > \varepsilon$ ，记 $r_{\varepsilon}$ 满足 $F(r_{\varepsilon}) = F(r^*) - \varepsilon$ ，样本中标记为 $1$ 的样本数为 $m^+$ ，则 $m^+ \sim \mathrm{Binomial}(m, \space F(r^*))$ ，且有：

\begin{equation} \mathbb{P}(\hat{r} < r_{\varepsilon} \mid m^+) = \left[ \dfrac{F(r_{\varepsilon})}{F(r^*)} \right]^{m^+} = \left[ 1 - \dfrac{\varepsilon}{F(r^*)} \right]^{m^+}. \end{equation}

对等式两边取期望，得：

\begin{equation} \mathbb{P}(\hat{r} < r_{\varepsilon}) = \mathbb{E} \left[ \left(1 - \dfrac{\varepsilon}{F(r^*)} \right) ^{m^+}\right] \leq \mathbb{E} \left[ \exp\left( -\dfrac{\varepsilon m^+}{F(r^*)} \right)\right]. \end{equation}

根据二项分布的矩母函数，有：

\begin{equation} \mathbb{E} \left[ \exp\left( -\dfrac{\varepsilon m^+}{F(r^*)} \right)\right] = \left[ 1 - p (1 - \mathrm{e}^{-q}) \right]^m, \end{equation}

其中 $p = F(r^*)$ ， $q = \frac{\varepsilon}{F(r^*)}$ . 容易证明 $\mathrm{e}^{-q} \leq 1 - q + \frac{1}{2} q^2$ ，故 $1 - \mathrm{e}^{-q} \geq q - \frac{1}{2}q^2 \geq \frac{1}{2}q$ （ $0 \leq q \leq 1$ ），因此：

\begin{equation} \left[ 1 - p (1 - \mathrm{e}^{-q}) \right]^m \leq \left[1 - p\left(\dfrac{q}{2}\right)\right]^m \leq \left(1 - \dfrac{1}{2}\varepsilon \right)^2 \leq \exp(-\dfrac{\varepsilon m}{2}). \end{equation}

故：

\begin{equation} \mathbb{P}(\hat{r} < r_{\varepsilon}) \leq \exp(-\dfrac{\varepsilon m}{2}). \end{equation}

令不等式右侧小于 $\delta$ ，得：

\begin{equation} m \geq \dfrac{2}{\varepsilon} \ln \dfrac{1}{\delta}. \end{equation}

综上所述，该问题是 PAC 可学习的，且采样复杂度 $m \leq \Big\lceil \frac{2}{\varepsilon} \ln \frac{1}{\delta} \Big\rceil$ . $\square$