《机器学习理论导引》笔记目录

第一章 : 预备知识
- 第一章 : 预备知识(上)
- 第一章 : 预备知识(下)
第二章 : 可学性
第三章 : 复杂度
第四章 : 泛化界
第五章 : 稳定性
第六章 : 一致性
- 第六章 : 一致性(上)
- 第六章 : 一致性(下)
第七章 : 收敛率
- 第七章 : 收敛率(上)
- 第七章 : 收敛率(下)
第八章 : 遗憾界
- 第八章 : 遗憾界(上)
- 第八章 : 遗憾界(下)

0 破事水感言

第五章我一直没有找到对应的讲解 PPT (~~可以复制粘贴的原材料~~)，但是强迫症使然我必然还是会把它进行补充的 (说起来更新章节也并没有严格按照顺序来做)。感觉现阶段理解很多概念还是比较困难的，再把实例分析和里面的定理一看更是头大，所以第一次更这部分，我先打算把实例分析跳过 (第8章那个我觉得少而不必要)。后续有缘的话补上。

5.1 稳定性的基本概念

考虑样本空间 $\mathcal{X} \subseteq \mathbb{R}^d$ 和标记空间 $\mathcal{Y} \subset \mathbb{R}$ ，假设 $\mathcal{D}$ 是空间 $\mathcal{X} \times \mathcal{Y}$ 上的一个联合分布。训练集 $D=\left\{\left(\boldsymbol{x}_1, y_1\right),\left(\boldsymbol{x}_2, y_2\right), \ldots,\left(\boldsymbol{x}_m, y_m\right)\right\}$ 基于分布 $\mathcal{D}$ 独立同分布采样所得。记 $\boldsymbol{z}=(\boldsymbol{x}, y)$ 和 $\boldsymbol{z}_i=\left(\boldsymbol{x}_i, y_i\right)$ 。在稳定性研究中，一般考虑训练集 $D$ 的两种扰动: 移除样本和替换样本，其定义如下:

$D^{\backslash i}$ 表示移除训练集 $D$ 中第 $i$ 个样本而得到的数据集, 即
$D^{\backslash i}=\left\{\boldsymbol{z}_1, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_{i-1}, \boldsymbol{z}_{i+1}, \ldots, \boldsymbol{z}_m\right\}$
$D^{i, z_i^{\prime}}$ 表示将训练集 $D$ 中第 $i$ 个样本 $\boldsymbol{z}_i=\left(\boldsymbol{x}_i, y_i\right)$ 替换为 $\boldsymbol{z}_i^{\prime}=\left(\boldsymbol{x}_i^{\prime}, y_i^{\prime}\right)$ 所得的数据集, 即
$D^{i, z_i^{\prime}}=\left\{\boldsymbol{z}_1, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_{i-1}, \boldsymbol{z}_i^{\prime}, \boldsymbol{z}_{i+1}, \ldots, \boldsymbol{z}_m\right\}$

给定学习算法 $\mathfrak{L}$ , 令 $\mathfrak{L}_D: \mathcal{X} \mapsto \mathcal{Y}$ 表示 $\mathfrak{L}$ 基于训练集 $D$ 学习所得的输出函数。引入损失函数 $\ell$ ，对于常用的 0/1 损失函数和平方损失函数在此不做过多赘述。

为衡量输出函数 $\mathfrak{L}_D$ 在数据集或数据分布下的性能。下面定义三种常用的风险 :

函数 $\mathfrak{L}_D$ 在数据集 $D$ 上的性能被称为经验风险, 即
$\widehat{R}\left(\mathfrak{L}_D\right)=\frac{1}{m} \sum_{i=1}^m \ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right) .$
函数 $\mathfrak{L}_D$ 在数据分布 $\mathcal{D}$ 上的性能被称为泛化风险, 即
$R\left(\mathfrak{L}_D\right)=\mathbb{E}_{\boldsymbol{z} \sim \mathcal{D}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)\right] .$
给定数据集 $D$ , 留一风险 (leave-one-out risk) 为
$R_{\text {loo }}\left(\mathfrak{L}_D\right)=\frac{1}{m} \sum_{i=1}^m \ell\left(\mathfrak{L}_{D \backslash i}, \boldsymbol{z}_i\right) .$

对于这三种风险, 有如下关系 :

引理 5.1 对任意数据集 $D$ 和 $i \in[m]$ , 有

\begin{aligned} & \mathbb{E}_D\left[R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right]=\mathbb{E}_{D, \boldsymbol{z}_i^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i^{\prime}\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}_i^{\prime}\right)\right] \\ & \mathbb{E}_D\left[R\left(\mathfrak{L}_{D \backslash i}\right)-R_{\text {loo }}\left(\mathfrak{L}_D\right)\right]=0, \\ & \mathbb{E}_D\left[R\left(\mathfrak{L}_D\right)-R_{\text {loo }}\left(\mathfrak{L}_D\right)\right]=\mathbb{E}_{D, \boldsymbol{z}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}}, \boldsymbol{z}_i\right)\right] \end{aligned}

证明

根据泛化风险可知

\mathbb{E}_D\left[R\left(\mathfrak{L}_D\right)\right]=\mathbb{E}_{D, \boldsymbol{z}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)\right]=\mathbb{E}_{D, \boldsymbol{z}_i^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i^{\prime}\right)\right]

由于数据集 $D$ 中的样本 $z_1,z_2,\ldots,z_m$ 是基于分布 $D$ 独立同分布来样得到的，根据经验风险可得

\mathbb{E}_D\left[\widehat{R}\left(\mathfrak{L}_D\right)\right]=\frac{1}{m} \sum_{j=1}^m \mathbb{E}_D\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_j\right)\right]=\mathbb{E}_D\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right]

将样本 $z_i$ 替换为 $z_i'$ ，可以得到

\mathbb{E}_D\left[\widehat{R}\left(\mathfrak{L}_D\right)\right]=\mathbb{E}_{D, \boldsymbol{z}_i^{\prime}}\left[\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}_i^{\prime}\right)\right]

同理可证明剩下两式成立。

下面给出几种经典的稳定性概念，首先介绍均匀稳定性 (uniform stability)，分为替换样本均匀稳定性和移除样本均匀稳定性两种情况。

定义 5.1 替换样本均匀稳定性 : 对任意数据集 $D$ 和样本 $z,z'\in\mathcal{X}\times\mathcal{Y}$ ，若学习算法 $\mathfrak{L}$ 满足

\left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}\right)\right| \leqslant \beta \quad(i \in[m])

则称算法 $\mathfrak{L}$ 具有关于损失函数 $\ell$ 的替换样本 $\beta-$ 均匀稳定性。

定义 5.2 移除样本均匀稳定性 : 对任意数据集 $D$ 和样本 $z\in\mathcal{X}\times\mathcal{Y}$ ，若学习算法 $\mathfrak{L}$ 满足

\left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}}, \boldsymbol{z}\right)\right| \leqslant \gamma \quad(i \in[m])

则称算法 $\mathfrak{L}$ 具有关于损失函数 $\ell$ 的移除样本 $\gamma-$ 均匀稳定性。可以衍生得到

\begin{aligned} & \left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}\right)\right| \\ \leqslant & \left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}}, \boldsymbol{z}\right)\right|+\left|\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}}, \boldsymbol{z}\right)\right| \leqslant 2 \gamma \end{aligned}

从而证明了算法 $\mathfrak{L}$ 具有替换样本 $2\gamma-$ 均匀稳定性。因此移除样本均匀稳定性可推导出替换样本均匀稳定性。

一般而言, 替换样本 $\beta$ -均匀稳定性中的系数 $\beta$ 与训练集的大小 $m$ 相关，即 $\beta=\beta(m)$ 。若算法 $\mathfrak{L}$ 满足

\lim _{m \rightarrow \infty} \beta=\lim _{m \rightarrow \infty} \beta(m)=0,

则称算法 $\mathfrak{L}$ 是稳定的。直观而言，均匀稳定性确保了当训练数据足够多时，替换一个样本对学习算法输出函数的影响较小。

考虑到均匀稳定性要求对任意的数据集 $D$ 和样本 $\boldsymbol{z}$ 满足 5.1 和 5.2 两个定义，这是一个较强的条件。我们适当放松这个条件 : 对数据集 $D$ 和样本 $z$ 取期望，在期望条件下考虑训练集的扰动对算法输出函数的影响，就产生了如下的假设稳定性。

定义 5.3 替换样本假设稳定性 : 若学习算法 $\mathfrak{L}$ 满足

\mathbb{E}_{D, \boldsymbol{z}_{\boldsymbol{i}}^{\prime} \sim \mathcal{D}^{m+1}}\left[\mid \ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}, \boldsymbol{z}_i}\right)\mid\right] \leqslant \beta \quad(i \in[m]),

则称算法 $\mathfrak{L}$ 具有关于损失函数 $\ell$ 的替换样本 $\beta$ -假设稳定性。

5.2 稳定性的重要性质

5.2.1 稳定性与泛化性

定理 5.1 给定学习算法 $\mathfrak{L}$ 和数据集 $D=\left\{\boldsymbol{z}_1, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_m\right\}$ ，假设损失函数 $\ell(\cdot, \cdot) \in[0, M]$ ，若学习算法 $\mathfrak{L}$ 具有替换样本 $\beta$ -均匀稳定性，则对任意 $\delta \in(0,1)$ 以至少 $1-\delta$ 的概率有

R\left(\mathfrak{L}_D\right) \leqslant \widehat{R}\left(\mathfrak{L}_D\right)+\beta+(2 m \beta+M) \sqrt{\frac{\ln (1 / \delta)}{2 m}}

若学习算法 $\mathfrak{L}$ 具有移除样本 $\gamma$ -均匀稳定性，则对任意 $\delta \in(0,1)$ ，以至少 $1-\delta$ 的概率有

R\left(\mathfrak{L}_D\right) \leqslant R_{\text {loo }}\left(\mathfrak{L}_D\right)+\gamma+(4 m \gamma+M) \sqrt{\frac{\ln (1 / \delta)}{2 m}}

证明首先设函数

\Phi(D)=\Phi\left(z_1, z_2, \ldots, z_m\right)=R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right) .

对任意 $i \in[m]$ ，根据引理 5.1 中第一个式子可得

\begin{aligned} \mathbb{E}_D[\Phi(D)] & =\mathbb{E}_D\left[R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right] \\ & =\mathbb{E}_{D, \boldsymbol{z}_{\boldsymbol{i}}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i^{\prime}\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}_{\boldsymbol{i}}^{\prime}\right)\right] \leqslant \beta \end{aligned}

给定样本 $z_i^{\prime} \in \mathcal{X} \times \mathcal{Y}$ ，有

\left|\Phi(D)-\Phi\left(D^{i, z_i^{\prime}}\right)\right| \leqslant\left|R\left(\mathfrak{L}_D\right)-R\left(\mathfrak{L}_{D^{i, z_i^{\prime}}}\right)\right|+\left|\widehat{R}\left(\mathfrak{L}_{D^{i, z_i^{\prime}}}\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right|

对替换样本 $\beta$ -均匀稳定性的算法 $\mathfrak{L}$ ，有

\begin{aligned} & \left|\widehat{R}\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right| \\ \leqslant & \frac{\left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}_i^{\prime}\right)\right|}{m}+\sum_{j \neq i} \frac{\left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}_j\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}_j\right)\right|}{m} \\ \leqslant & \beta+M / m \end{aligned}

进一步可以得到

\left|R\left(\mathfrak{L}_D\right)-R\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}\right)\right|=\left|\mathbb{E}_{\boldsymbol{z} \sim \mathcal{D}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}\right)\right]\right| \leqslant \beta

将上面两式代入可得

\left|\Phi(D)-\Phi\left(D^{i, z_i^{\prime}}\right)\right| \leqslant 2 \beta+M / m

再将 McDiarmid 不等式应用于函数 $\Phi(D)$ ，对任意 $\epsilon>0$ 有

\begin{aligned} & P\left(R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right) \geqslant \beta+\epsilon\right)=P(\Phi(D) \geqslant \beta+\epsilon) \\ & \leqslant P(\Phi(D) \geqslant \mathbb{E}[\Phi(D)]+\epsilon) \leqslant \exp \left(\frac{-2 m \epsilon^2}{(2 m \beta+M)^2}\right) \end{aligned}

令 $\delta=\exp \left(-2 m \epsilon^2 /(2 m \beta+M)^2\right)$ ，解出 $\epsilon=(2 m \beta+M) \sqrt{\ln (1 / \delta) / 2 m}$ ，代入上式可得, 以至少 $1-\delta$ 的概率有

R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)<\beta+(2 m \beta+M) \sqrt{\frac{\ln (1 / \delta)}{2 m}}

由此证明定理 5.1 中第一个式子，同理基于构造 $\Phi^{\prime}(D)=R\left(\mathfrak{L}_D\right)-R_{\text {loo }}\left(\mathfrak{L}_D\right)$ 可证明第二个式子。

定理 5.2 给定学习算法 $\mathfrak{L}$ 和训练集 $D=\left\{\boldsymbol{z}_1, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_m\right\}$ ，假设损失函数 $\ell(\cdot, \cdot) \in[0, M]$ ，若学习算法 $\mathfrak{L}$ 具有替换样本 $\beta$ -假设稳定性, 则有

\mathbb{E}_{D \sim \mathcal{D}^m}\left[\left(R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right)^2\right] \leqslant 4 M \beta+\frac{M^2}{m}

证明根据泛化风险和经验风险的定义有

\begin{aligned} &\mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right)^2\right]=\mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\frac{1}{m} \sum_{i=1}^m \ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right)^2\right] \\ =&\frac{1}{m^2} \sum_{i \neq j} \mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right)\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_j\right)\right)\right] \\ &+\frac{1}{m^2} \sum_{i=1}^m \mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right)^2\right] \end{aligned}

根据损失函数 $\ell(\cdot, \cdot) \in[0, M]$ 可得 $R\left(\mathfrak{L}_D\right)=\mathbb{E}_{\boldsymbol{z} \sim \mathcal{D}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)\right] \in[0, M]$ ，以及

\frac{1}{m^2} \sum_{i=1}^m \mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right)^2\right] \leqslant \frac{M^2}{m}

根据训练集 $D$ 的独立同分布假设有

\begin{aligned} &\frac{1}{m^2} \sum_{i \neq j} \mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right)\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_j\right)\right)\right] \\ =&(1-1 / m) \mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right)\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)\right)\right] \\ \leqslant& \mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right. \\ &\left. +\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)\right] \end{aligned}

引入数据集 $D^{1, \boldsymbol{z}}=\left\{\boldsymbol{z}, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_n\right\}$ ，根据独立同分布假设有

\mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right)\right]=\mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}}}, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_{\left.\left.D^{1, \boldsymbol{z}}, \boldsymbol{z}^{\prime}\right)\right]}\right]\right.

进一步利用 $\ell(\cdot, \cdot) \in[0, M]$ 和替换样本 $\beta$ -假设稳定性可得

\begin{aligned} & \mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right] \\ & =\mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}}}, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}}}, \boldsymbol{z}^{\prime}\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right] \\ & \leqslant \mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\left|\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}}}, \boldsymbol{z}^{\prime}\right)\right| \times\left|\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}}}, \boldsymbol{z}_1\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right|\right] \\ & +\mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right| \times\left|\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}} \boldsymbol{z}}, \boldsymbol{z}^{\prime}\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right)\right|\right] \leqslant 2 M \beta \end{aligned}

引入数据集 $D^{1, \boldsymbol{z}^{\prime}}=\left\{\boldsymbol{z}^{\prime}, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_n\right\}$ , 同理可证

\begin{aligned} & \mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)\right] \\ =&\mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)-\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}^{\prime}}, \boldsymbol{z}_2}\right)\right]\leqslant 2 M \beta \end{aligned}

结合上面的式子，定理得证。

过拟合 (overfitting) 是泛化性研究中的一个重要的概念。给定训练集 $D$ ，若算法 $\mathfrak{L}$ 输出函数的经验风险较小、而泛化风险较大，则称过拟合现象，即经验风险与泛化风险之间的差距 $\mathbb{E}_{D \sim \mathcal{D}^m}\left[R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right]$ 较大。

定理 5.3 数据集 $D=\left\{\boldsymbol{z}_1, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_m\right\}$ 和样本 $\boldsymbol{z}^{\prime}$ 都是基于分布 $\mathcal{D}$ 独立同分布采样所得，令 $\mathcal{U}(m)$ 表示在集合 $[m]=\{1,2, \ldots, m\}$ 上的均匀分布, 则对任何学习算法 $\mathfrak{L}$ 有

\begin{aligned} & \mathbb{E}_{D \sim \mathcal{D}^m}\left[R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right] \\ =&\mathbb{E}_{D, \boldsymbol{z}^{\prime} \sim \mathcal{D}^{m+1}, i \sim \mathcal{U}(m)}\left[\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}_i\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right] \end{aligned}

证明根据样本 $\boldsymbol{z}^{\prime}$ 和数据集 $D$ 的独立同分布假设可知

\begin{aligned} \mathbb{E}_{D \sim \mathcal{D}^m}\left[R\left(\mathfrak{L}_D\right)\right] & =\mathbb{E}_{D, \boldsymbol{z}^{\prime} \sim \mathcal{D}^{m+1}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right)\right] \\ & =\mathbb{E}_{D, \boldsymbol{z}^{\prime} \sim \mathcal{D}^{m+1}, i \sim \mathcal{U}(m)}\left[\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}_i\right)\right] \end{aligned}

另一方面有 $\mathbb{E}_{D \sim \mathcal{D}^m}\left[\widehat{R}\left(\mathfrak{L}_D\right)\right]=\mathbb{E}_{D \sim \mathcal{D}^m, i \sim \mathcal{U}(m)}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right]$ ，定理得证。

5.2.2 稳定性和科学性

定义 5.4 ERM 算法 : 给定函数空间 $\mathcal{H}=\{h: \mathcal{X} \mapsto \mathcal{Y}\}$ 和损失函数 $\ell$ ，对任意训练集 $D$ ，若学习算法 $\mathfrak{L}$ 在 $D$ 上学习得到的输出函数 $\mathfrak{L}_D$ 满足经验风险最小化，即

\mathfrak{L}_D \in \underset{h \in \mathcal{H}}{\arg \min } \widehat{R}_D(h),

则称算法 $\mathfrak{L}$ 满足经验风险最小化 (Empirical Risk Minimization) 原则, 简称 ERM 算法。

ERM 算法的稳定性和科学性有如下关系 :

定理 5.4 若学习算法 $\mathfrak{L}$ 是 ERM 的、且具有替换样本 $\beta$ -均匀稳定性 (其中 $\beta=1 / m$ )，则 (学习算法 $\mathfrak{L}$ 所考虑的) 函数空间 $\mathcal{H}$ 是不可知 PAC 可学的。

证明令 $h^*$ 表示 $\mathcal{H}$ 中具有最小泛化风险的函数，即

R\left(h^*\right)=\min _{h \in \mathcal{H}} R(h) .

为证明不可知 PAC 可学性，需验证存在多项式函数 $\operatorname{poly}(\cdot, \cdot, \cdot, \cdot)$ ，使得当训练集的个数 $m \geqslant \operatorname{poly}(1 / \epsilon, 1 / \delta, d, \operatorname{size}(c))$ 时，有

P\left(R\left(\mathfrak{L}_D\right)-R\left(h^*\right) \leqslant \epsilon\right) \geqslant 1-\delta

给定一个学习问题, 参数 $d$ 和 $\operatorname{size}(c)$ 根据学习问题变为确定的常数, 因此只需证明存在多项式函数 $\operatorname{poly}(\cdot, \cdot)$ , 当 $m \geqslant \operatorname{poly}(1 / \epsilon, 1 / \delta)$ 时上式成立。首先有

\begin{aligned} & R\left(\mathfrak{L}_D\right)-R\left(h^*\right) \\ =&\left(R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right)+\left(\widehat{R}\left(\mathfrak{L}_D\right)-\widehat{R}\left(h^*\right)\right)+\left(\widehat{R}\left(h^*\right)-R\left(h^*\right)\right) \end{aligned}

因为算法 $\mathfrak{L}_D$ 具有替换样本 $\beta$ -均匀稳定性，其中 $\beta=1 / m$ ，根据定理 5.1 可知，对任意 $\delta \in(0,1)$ ，以至少 $1-\delta / 2$ 的概率有

R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right) \leqslant \frac{1}{m}+(2+M) \sqrt{\frac{\ln (2 / \delta)}{2 m}}

考虑到函数 $\mathfrak{L}_D$ 是在训练集 $D$ 上经验风险最小化所得，有

\widehat{R}\left(\mathfrak{L}_D\right) \leqslant \widehat{R}\left(h^*\right) .

根据 Hoeffding 不等式可知，以至少 $1-\delta / 2$ 的概率有

\widehat{R}\left(h^*\right)-R\left(h^*\right) \leqslant \sqrt{\frac{\ln (2 / \delta)}{m}} .

结合上面的四个式子和联合界不等式可知，以至少 $1-\delta$ 的概率有

R\left(\mathfrak{L}_D\right)-R\left(h^*\right) \leqslant \frac{1}{m}+(2+M) \sqrt{\frac{\ln (2 / \delta)}{2 m}}+\sqrt{\frac{\ln (2 / \delta)}{m}} .

不妨令

\epsilon=\frac{1}{m}+(2+M) \sqrt{\frac{\ln (2 / \delta)}{2 m}}+\sqrt{\frac{\ln (2 / \delta)}{m}},

从 (5.44) 求解出 $m(\epsilon, \delta)=O\left(\frac{1}{\epsilon^2} \ln \frac{1}{\delta}\right)$ . 因此当 $m \geqslant m(\epsilon, \delta)$ 时有

P\left(R\left(\mathfrak{L}_D\right)-R\left(h^*\right) \leqslant \epsilon\right) \geqslant 1-\delta .

考虑到 $\ln (1 / \delta) \leqslant 1 / \delta$ ，因此存在多项式 $\operatorname{poly}(1 / \epsilon, 1 / \delta) \geqslant m(\epsilon, \delta)$ ，使得当 $m \geqslant \operatorname{poly}(1 / \epsilon, 1 / \delta)$ 时上式成立，定理得证。

稳定性——《机器学习理论导引》第五章学习笔记