稳定性——《机器学习理论导引》第五章学习笔记

286 阅读8分钟

《机器学习理论导引》笔记目录

0 破事水 感言

  第五章我一直没有找到对应的讲解 PPT (可以复制粘贴的原材料),但是强迫症使然我必然还是会把它进行补充的 (说起来更新章节也并没有严格按照顺序来做)。感觉现阶段理解很多概念还是比较困难的,再把实例分析和里面的定理一看更是头大,所以第一次更这部分,我先打算把实例分析跳过 (第8章那个我觉得少而不必要)。后续有缘的话补上。

5.1 稳定性的基本概念

  考虑样本空间 XRd\mathcal{X} \subseteq \mathbb{R}^d 和标记空间 YR\mathcal{Y} \subset \mathbb{R},假设 D\mathcal{D} 是空间 X×Y\mathcal{X} \times \mathcal{Y} 上的一个 联合分布。训练集 D={(x1,y1),(x2,y2),,(xm,ym)}D=\left\{\left(\boldsymbol{x}_1, y_1\right),\left(\boldsymbol{x}_2, y_2\right), \ldots,\left(\boldsymbol{x}_m, y_m\right)\right\} 基于分布 D\mathcal{D} 独立同分布采样所得。记 z=(x,y)\boldsymbol{z}=(\boldsymbol{x}, y)zi=(xi,yi)\boldsymbol{z}_i=\left(\boldsymbol{x}_i, y_i\right)。在稳定性研究中,一般考虑训练集 DD 的两种扰动: 移除样本和替换样本,其定义如下:

  • D\iD^{\backslash i} 表示移除训练集 DD 中第 ii 个样本而得到的数据集, 即

    D\i={z1,z2,,zi1,zi+1,,zm}D^{\backslash i}=\left\{\boldsymbol{z}_1, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_{i-1}, \boldsymbol{z}_{i+1}, \ldots, \boldsymbol{z}_m\right\}
  • Di,ziD^{i, z_i^{\prime}} 表示将训练集 DD 中第 ii 个样本 zi=(xi,yi)\boldsymbol{z}_i=\left(\boldsymbol{x}_i, y_i\right) 替换为 zi=(xi,yi)\boldsymbol{z}_i^{\prime}=\left(\boldsymbol{x}_i^{\prime}, y_i^{\prime}\right) 所 得的数据集, 即

    Di,zi={z1,z2,,zi1,zi,zi+1,,zm}D^{i, z_i^{\prime}}=\left\{\boldsymbol{z}_1, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_{i-1}, \boldsymbol{z}_i^{\prime}, \boldsymbol{z}_{i+1}, \ldots, \boldsymbol{z}_m\right\}

  给定学习算法 L\mathfrak{L}, 令 LD:XY\mathfrak{L}_D: \mathcal{X} \mapsto \mathcal{Y} 表示 L\mathfrak{L} 基于训练集 DD 学习所得的输出函数。引入损失函数 \ell,对于常用的 0/1 损失函数和平方损失函数在此不做过多赘述。

  为衡量输出函数 LD\mathfrak{L}_D 在数据集或数据分布下的性能。下面定义三种常用的风险 :

  • 函数 LD\mathfrak{L}_D 在数据集 DD 上的性能被称为 经验风险, 即

    R^(LD)=1mi=1m(LD,zi).\widehat{R}\left(\mathfrak{L}_D\right)=\frac{1}{m} \sum_{i=1}^m \ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right) .
  • 函数 LD\mathfrak{L}_D 在数据分布 D\mathcal{D} 上的性能被称为泛化风险, 即

    R(LD)=EzD[(LD,z)].R\left(\mathfrak{L}_D\right)=\mathbb{E}_{\boldsymbol{z} \sim \mathcal{D}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)\right] .
  • 给定数据集 DD, 留一风险 (leave-one-out risk) 为

    Rloo (LD)=1mi=1m(LD\i,zi).R_{\text {loo }}\left(\mathfrak{L}_D\right)=\frac{1}{m} \sum_{i=1}^m \ell\left(\mathfrak{L}_{D \backslash i}, \boldsymbol{z}_i\right) .

  对于这三种风险, 有如下关系 :


引理 5.1 对任意数据集 DDi[m]i \in[m], 有

ED[R(LD)R^(LD)]=ED,zi[(LD,zi)(LDi,zi,zi)]ED[R(LD\i)Rloo (LD)]=0,ED[R(LD)Rloo (LD)]=ED,z[(LD,z)(LD\i,zi)]\begin{aligned} & \mathbb{E}_D\left[R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right]=\mathbb{E}_{D, \boldsymbol{z}_i^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i^{\prime}\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}_i^{\prime}\right)\right] \\ & \mathbb{E}_D\left[R\left(\mathfrak{L}_{D \backslash i}\right)-R_{\text {loo }}\left(\mathfrak{L}_D\right)\right]=0, \\ & \mathbb{E}_D\left[R\left(\mathfrak{L}_D\right)-R_{\text {loo }}\left(\mathfrak{L}_D\right)\right]=\mathbb{E}_{D, \boldsymbol{z}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}}, \boldsymbol{z}_i\right)\right] \end{aligned}

证明

  根据泛化风险可知

ED[R(LD)]=ED,z[(LD,z)]=ED,zi[(LD,zi)]\mathbb{E}_D\left[R\left(\mathfrak{L}_D\right)\right]=\mathbb{E}_{D, \boldsymbol{z}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)\right]=\mathbb{E}_{D, \boldsymbol{z}_i^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i^{\prime}\right)\right]

  由于数据集 DD 中的样本 z1,z2,,zmz_1,z_2,\ldots,z_m 是基于分布 DD 独立同分布来样得到的,根据经验风险可得

ED[R^(LD)]=1mj=1mED[(LD,zj)]=ED[(LD,zi)]\mathbb{E}_D\left[\widehat{R}\left(\mathfrak{L}_D\right)\right]=\frac{1}{m} \sum_{j=1}^m \mathbb{E}_D\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_j\right)\right]=\mathbb{E}_D\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right]

  将样本 ziz_i 替换为 ziz_i',可以得到

ED[R^(LD)]=ED,zi[(LDi,zi,zi)]\mathbb{E}_D\left[\widehat{R}\left(\mathfrak{L}_D\right)\right]=\mathbb{E}_{D, \boldsymbol{z}_i^{\prime}}\left[\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}_i^{\prime}\right)\right]

  同理可证明剩下两式成立。


  下面给出几种经典的稳定性概念,首先介绍均匀稳定性 (uniform stability),分为替换样本均匀稳定性和移除样本均匀稳定性两种情况。


定义 5.1 替换样本均匀稳定性 : 对任意数据集 DD 和样本 z,zX×Yz,z'\in\mathcal{X}\times\mathcal{Y},若学习算法 L\mathfrak{L} 满足

(LD,z)(LDi,z,z)β(i[m])\left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}\right)\right| \leqslant \beta \quad(i \in[m])

  则称算法 L\mathfrak{L} 具有关于损失函数 \ell 的替换样本 β\beta-均匀稳定性。

定义 5.2 移除样本均匀稳定性 : 对任意数据集 DD 和样本 zX×Yz\in\mathcal{X}\times\mathcal{Y},若学习算法 L\mathfrak{L} 满足

(LD,z)(LD\i,z)γ(i[m])\left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}}, \boldsymbol{z}\right)\right| \leqslant \gamma \quad(i \in[m])

  则称算法 L\mathfrak{L} 具有关于损失函数 \ell 的移除样本 γ\gamma-均匀稳定性。可以衍生得到

(LD,z)(LDi,z,z)(LD,z)(LD\i,z)+(LDi,z,z)(LD\i,z)2γ\begin{aligned} & \left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}\right)\right| \\ \leqslant & \left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}}, \boldsymbol{z}\right)\right|+\left|\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}}, \boldsymbol{z}\right)\right| \leqslant 2 \gamma \end{aligned}

  从而证明了算法 L\mathfrak{L} 具有替换样本 2γ2\gamma-均匀稳定性。因此移除样本均匀稳定性可推导出替换样本均匀稳定性。


  一般而言, 替换样本 β\beta-均匀稳定性中的系数 β\beta 与训练集的大小 mm 相关,即 β=β(m)\beta=\beta(m)。若算法 L\mathfrak{L} 满足

limmβ=limmβ(m)=0,\lim _{m \rightarrow \infty} \beta=\lim _{m \rightarrow \infty} \beta(m)=0,

  则称算法 L\mathfrak{L} 是稳定的。直观而言,均匀稳定性确保了当训练数据足够多时,替换一个样本对学习算法输出函数的影响较小。

  考虑到均匀稳定性要求对任意的数据集 DD 和样本 z\boldsymbol{z} 满足 5.1 和 5.2 两个定义,这是一个较强的条件。我们适当放松这个条件 : 对数据集 DD 和样本 zz 取期望,在期望条件下考虑训练集的扰动对算法输出函数的影响,就产生了如下的假设稳定性。


定义 5.3 替换样本假设稳定性 : 若学习算法 L\mathfrak{L} 满足

ED,ziDm+1[(LD,zi)(LDi,zi,zi)]β(i[m]),\mathbb{E}_{D, \boldsymbol{z}_{\boldsymbol{i}}^{\prime} \sim \mathcal{D}^{m+1}}\left[\mid \ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}, \boldsymbol{z}_i}\right)\mid\right] \leqslant \beta \quad(i \in[m]),

  则称算法 L\mathfrak{L} 具有关于损失函数 \ell 的替换样本 β\beta-假设稳定性。


5.2 稳定性的重要性质

5.2.1 稳定性与泛化性

定理 5.1 给定学习算法 L\mathfrak{L} 和数据集 D={z1,z2,,zm}D=\left\{\boldsymbol{z}_1, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_m\right\},假设损失函数 (,)[0,M]\ell(\cdot, \cdot) \in[0, M],若学习算法 L\mathfrak{L} 具有替换样本 β\beta-均匀稳定性,则对任意 δ(0,1)\delta \in(0,1) 以至少 1δ1-\delta 的概率有

R(LD)R^(LD)+β+(2mβ+M)ln(1/δ)2mR\left(\mathfrak{L}_D\right) \leqslant \widehat{R}\left(\mathfrak{L}_D\right)+\beta+(2 m \beta+M) \sqrt{\frac{\ln (1 / \delta)}{2 m}}

  若学习算法 L\mathfrak{L} 具有移除样本 γ\gamma-均匀稳定性,则对任意 δ(0,1)\delta \in(0,1),以至少 1δ1-\delta 的概率有

R(LD)Rloo (LD)+γ+(4mγ+M)ln(1/δ)2mR\left(\mathfrak{L}_D\right) \leqslant R_{\text {loo }}\left(\mathfrak{L}_D\right)+\gamma+(4 m \gamma+M) \sqrt{\frac{\ln (1 / \delta)}{2 m}}

证明 首先设函数

Φ(D)=Φ(z1,z2,,zm)=R(LD)R^(LD).\Phi(D)=\Phi\left(z_1, z_2, \ldots, z_m\right)=R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right) .

  对任意 i[m]i \in[m],根据引理 5.1 中第一个式子可得

ED[Φ(D)]=ED[R(LD)R^(LD)]=ED,zi[(LD,zi)(LDi,zi,zi)]β\begin{aligned} \mathbb{E}_D[\Phi(D)] & =\mathbb{E}_D\left[R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right] \\ & =\mathbb{E}_{D, \boldsymbol{z}_{\boldsymbol{i}}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i^{\prime}\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}_{\boldsymbol{i}}^{\prime}\right)\right] \leqslant \beta \end{aligned}

  给定样本 ziX×Yz_i^{\prime} \in \mathcal{X} \times \mathcal{Y},有

Φ(D)Φ(Di,zi)R(LD)R(LDi,zi)+R^(LDi,zi)R^(LD)\left|\Phi(D)-\Phi\left(D^{i, z_i^{\prime}}\right)\right| \leqslant\left|R\left(\mathfrak{L}_D\right)-R\left(\mathfrak{L}_{D^{i, z_i^{\prime}}}\right)\right|+\left|\widehat{R}\left(\mathfrak{L}_{D^{i, z_i^{\prime}}}\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right|

  对替换样本 β\beta-均匀稳定性的算法 L\mathfrak{L},有

R^(LDi,zi)R^(LD)(LD,zi)(LDi,zi,zi)m+ji(LD,zj)(LDi,zi,zj)mβ+M/m\begin{aligned} & \left|\widehat{R}\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right| \\ \leqslant & \frac{\left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}_i^{\prime}\right)\right|}{m}+\sum_{j \neq i} \frac{\left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}_j\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}_j\right)\right|}{m} \\ \leqslant & \beta+M / m \end{aligned}

  进一步可以得到

R(LD)R(LDi,zi)=EzD[(LD,z)(LDi,zi,z)]β\left|R\left(\mathfrak{L}_D\right)-R\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}\right)\right|=\left|\mathbb{E}_{\boldsymbol{z} \sim \mathcal{D}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}_i^{\prime}}}, \boldsymbol{z}\right)\right]\right| \leqslant \beta

  将上面两式代入可得

Φ(D)Φ(Di,zi)2β+M/m\left|\Phi(D)-\Phi\left(D^{i, z_i^{\prime}}\right)\right| \leqslant 2 \beta+M / m

  再将 McDiarmid 不等式应用于函数 Φ(D)\Phi(D), 对任意 ϵ>0\epsilon>0

P(R(LD)R^(LD)β+ϵ)=P(Φ(D)β+ϵ)P(Φ(D)E[Φ(D)]+ϵ)exp(2mϵ2(2mβ+M)2)\begin{aligned} & P\left(R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right) \geqslant \beta+\epsilon\right)=P(\Phi(D) \geqslant \beta+\epsilon) \\ & \leqslant P(\Phi(D) \geqslant \mathbb{E}[\Phi(D)]+\epsilon) \leqslant \exp \left(\frac{-2 m \epsilon^2}{(2 m \beta+M)^2}\right) \end{aligned}

  令 δ=exp(2mϵ2/(2mβ+M)2)\delta=\exp \left(-2 m \epsilon^2 /(2 m \beta+M)^2\right),解出 ϵ=(2mβ+M)ln(1/δ)/2m\epsilon=(2 m \beta+M) \sqrt{\ln (1 / \delta) / 2 m},代入上式可得, 以至少 1δ1-\delta 的概率有

R(LD)R^(LD)<β+(2mβ+M)ln(1/δ)2mR\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)<\beta+(2 m \beta+M) \sqrt{\frac{\ln (1 / \delta)}{2 m}}

  由此证明定理 5.1 中第一个式子,同理基于构造 Φ(D)=R(LD)Rloo (LD)\Phi^{\prime}(D)=R\left(\mathfrak{L}_D\right)-R_{\text {loo }}\left(\mathfrak{L}_D\right) 可证明第二个式子。


定理 5.2 给定学习算法 L\mathfrak{L} 和训练集 D={z1,z2,,zm}D=\left\{\boldsymbol{z}_1, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_m\right\},假设损失函数 (,)[0,M]\ell(\cdot, \cdot) \in[0, M],若学习算法 L\mathfrak{L} 具有替换样本 β\beta-假设稳定性, 则有

EDDm[(R(LD)R^(LD))2]4Mβ+M2m\mathbb{E}_{D \sim \mathcal{D}^m}\left[\left(R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right)^2\right] \leqslant 4 M \beta+\frac{M^2}{m}

证明 根据泛化风险和经验风险的定义有

ED[(R(LD)R^(LD))2]=ED[(R(LD)1mi=1m(LD,zi))2]=1m2ijED[(R(LD)(LD,zi))(R(LD)(LD,zj))]+1m2i=1mED[(R(LD)(LD,zi))2]\begin{aligned} &\mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right)^2\right]=\mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\frac{1}{m} \sum_{i=1}^m \ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right)^2\right] \\ =&\frac{1}{m^2} \sum_{i \neq j} \mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right)\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_j\right)\right)\right] \\ &+\frac{1}{m^2} \sum_{i=1}^m \mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right)^2\right] \end{aligned}

  根据损失函数 (,)[0,M]\ell(\cdot, \cdot) \in[0, M] 可得 R(LD)=EzD[(LD,z)][0,M]R\left(\mathfrak{L}_D\right)=\mathbb{E}_{\boldsymbol{z} \sim \mathcal{D}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right)\right] \in[0, M],以及

1m2i=1mED[(R(LD)(LD,zi))2]M2m\frac{1}{m^2} \sum_{i=1}^m \mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right)^2\right] \leqslant \frac{M^2}{m}

  根据训练集 DD 的独立同分布假设有

1m2ijED[(R(LD)(LD,zi))(R(LD)(LD,zj))]=(11/m)ED[(R(LD)(LD,z1))(R(LD)(LD,z2))]ED,z,z[(LD,z)(LD,z)(LD,z)(LD,z1)+(LD,z1)(LD,z2)(LD,z)(LD,z2)]\begin{aligned} &\frac{1}{m^2} \sum_{i \neq j} \mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right)\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_j\right)\right)\right] \\ =&(1-1 / m) \mathbb{E}_D\left[\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right)\left(R\left(\mathfrak{L}_D\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)\right)\right] \\ \leqslant& \mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right. \\ &\left. +\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)\right] \end{aligned}

  引入数据集 D1,z={z,z2,,zn}D^{1, \boldsymbol{z}}=\left\{\boldsymbol{z}, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_n\right\},根据独立同分布假设有

ED,z,z[(LD,z)(LD,z)]=ED,z,z[(LD1,z,z1)(LD1,z,z)]]\mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right)\right]=\mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}}}, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_{\left.\left.D^{1, \boldsymbol{z}}, \boldsymbol{z}^{\prime}\right)\right]}\right]\right.

进一步利用 (,)[0,M]\ell(\cdot, \cdot) \in[0, M] 和替换样本 β\beta-假设稳定性可得

ED,z,z[(LD,z)(LD,z)(LD,z)(LD,z1)]=ED,z,z[(LD1,z,z1)(LD1,z,z)(LD,z)(LD,z1)]ED,z,z[(LD1,z,z)×(LD1,z,z1)(LD,z1)]+ED,z,z[(LD,z1)×(LD1,zz,z)(LD,z)]2Mβ\begin{aligned} & \mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right] \\ & =\mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}}}, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}}}, \boldsymbol{z}^{\prime}\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right] \\ & \leqslant \mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\left|\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}}}, \boldsymbol{z}^{\prime}\right)\right| \times\left|\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}}}, \boldsymbol{z}_1\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right|\right] \\ & +\mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\left|\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right)\right| \times\left|\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}} \boldsymbol{z}}, \boldsymbol{z}^{\prime}\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right)\right|\right] \leqslant 2 M \beta \end{aligned}

引入数据集 D1,z={z,z2,,zn}D^{1, \boldsymbol{z}^{\prime}}=\left\{\boldsymbol{z}^{\prime}, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_n\right\}, 同理可证

ED,z,z[(LD,z1)(LD,z2)(LD,z)(LD,z2)]=ED,z,z[(LD,z1)(LD,z2)(LD1,z,z1)(LD1,z,z2)]2Mβ\begin{aligned} & \mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)\right] \\ =&\mathbb{E}_{D, \boldsymbol{z}, \boldsymbol{z}^{\prime}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_D, \boldsymbol{z}_2\right)-\ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}_1\right) \ell\left(\mathfrak{L}_{D^{1, \boldsymbol{z}^{\prime}}, \boldsymbol{z}_2}\right)\right]\leqslant 2 M \beta \end{aligned}

  结合上面的式子,定理得证。


  过拟合 (overfitting) 是泛化性研究中的一个重要的概念。给定训练集 DD,若算法 L\mathfrak{L} 输出函数的经验风险较小、而泛化风险较大,则称过拟合现象,即经验风险与泛化风险之间的差距 EDDm[R(LD)R^(LD)]\mathbb{E}_{D \sim \mathcal{D}^m}\left[R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right] 较大。


定理 5.3 数据集 D={z1,z2,,zm}D=\left\{\boldsymbol{z}_1, \boldsymbol{z}_2, \ldots, \boldsymbol{z}_m\right\} 和样本 z\boldsymbol{z}^{\prime} 都是基于分布 D\mathcal{D} 独立同分布采样所得,令 U(m)\mathcal{U}(m) 表示在集合 [m]={1,2,,m}[m]=\{1,2, \ldots, m\} 上的均匀分布, 则对任何学习算法 L\mathfrak{L}

EDDm[R(LD)R^(LD)]=ED,zDm+1,iU(m)[(LDi,z,zi)(LD,zi)]\begin{aligned} & \mathbb{E}_{D \sim \mathcal{D}^m}\left[R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right] \\ =&\mathbb{E}_{D, \boldsymbol{z}^{\prime} \sim \mathcal{D}^{m+1}, i \sim \mathcal{U}(m)}\left[\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}_i\right)-\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right] \end{aligned}

证明 根据样本 z\boldsymbol{z}^{\prime} 和数据集 DD 的独立同分布假设可知

EDDm[R(LD)]=ED,zDm+1[(LD,z)]=ED,zDm+1,iU(m)[(LDi,z,zi)]\begin{aligned} \mathbb{E}_{D \sim \mathcal{D}^m}\left[R\left(\mathfrak{L}_D\right)\right] & =\mathbb{E}_{D, \boldsymbol{z}^{\prime} \sim \mathcal{D}^{m+1}}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}^{\prime}\right)\right] \\ & =\mathbb{E}_{D, \boldsymbol{z}^{\prime} \sim \mathcal{D}^{m+1}, i \sim \mathcal{U}(m)}\left[\ell\left(\mathfrak{L}_{D^{i, \boldsymbol{z}^{\prime}}}, \boldsymbol{z}_i\right)\right] \end{aligned}

  另一方面有 EDDm[R^(LD)]=EDDm,iU(m)[(LD,zi)]\mathbb{E}_{D \sim \mathcal{D}^m}\left[\widehat{R}\left(\mathfrak{L}_D\right)\right]=\mathbb{E}_{D \sim \mathcal{D}^m, i \sim \mathcal{U}(m)}\left[\ell\left(\mathfrak{L}_D, \boldsymbol{z}_i\right)\right],定理得证。


5.2.2 稳定性和科学性


定义 5.4 ERM 算法 : 给定函数空间 H={h:XY}\mathcal{H}=\{h: \mathcal{X} \mapsto \mathcal{Y}\} 和损失函数 \ell,对任意训练集 DD,若学习算法 L\mathfrak{L}DD 上学习得到的输出函数 LD\mathfrak{L}_D 满足经验风险最小化,即

LDargminhHR^D(h),\mathfrak{L}_D \in \underset{h \in \mathcal{H}}{\arg \min } \widehat{R}_D(h),

  则称算法 L\mathfrak{L} 满足经验风险最小化 (Empirical Risk Minimization) 原则, 简称 ERM 算法。


  ERM 算法的稳定性和科学性有如下关系 :


定理 5.4 若学习算法 L\mathfrak{L} 是 ERM 的、且具有替换样本 β\beta-均匀稳定性 (其 中 β=1/m\beta=1 / m ),则 (学习算法 L\mathfrak{L} 所考虑的) 函数空间 H\mathcal{H} 是不可知 PAC 可学的。

证明hh^* 表示 H\mathcal{H} 中具有最小泛化风险的函数,即

R(h)=minhHR(h).R\left(h^*\right)=\min _{h \in \mathcal{H}} R(h) .

  为证明不可知 PAC 可学性,需验证存在多项式函数 poly(,,,)\operatorname{poly}(\cdot, \cdot, \cdot, \cdot),使得当训练 集的个数 mpoly(1/ϵ,1/δ,d,size(c))m \geqslant \operatorname{poly}(1 / \epsilon, 1 / \delta, d, \operatorname{size}(c)) 时,有

P(R(LD)R(h)ϵ)1δP\left(R\left(\mathfrak{L}_D\right)-R\left(h^*\right) \leqslant \epsilon\right) \geqslant 1-\delta

  给定一个学习问题, 参数 ddsize(c)\operatorname{size}(c) 根据学习问题变为确定的常数, 因此只需证明存在多项式函数 poly(,)\operatorname{poly}(\cdot, \cdot), 当 mpoly(1/ϵ,1/δ)m \geqslant \operatorname{poly}(1 / \epsilon, 1 / \delta) 时上式成立。首先有

R(LD)R(h)=(R(LD)R^(LD))+(R^(LD)R^(h))+(R^(h)R(h))\begin{aligned} & R\left(\mathfrak{L}_D\right)-R\left(h^*\right) \\ =&\left(R\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right)\right)+\left(\widehat{R}\left(\mathfrak{L}_D\right)-\widehat{R}\left(h^*\right)\right)+\left(\widehat{R}\left(h^*\right)-R\left(h^*\right)\right) \end{aligned}

  因为算法 LD\mathfrak{L}_D 具有替换样本 β\beta-均匀稳定性,其中 β=1/m\beta=1 / m,根据定理 5.1 可知,对任意 δ(0,1)\delta \in(0,1),以至少 1δ/21-\delta / 2 的概率有

R(LD)R^(LD)1m+(2+M)ln(2/δ)2mR\left(\mathfrak{L}_D\right)-\widehat{R}\left(\mathfrak{L}_D\right) \leqslant \frac{1}{m}+(2+M) \sqrt{\frac{\ln (2 / \delta)}{2 m}}

  考虑到函数 LD\mathfrak{L}_D 是在训练集 DD 上经验风险最小化所得,有

R^(LD)R^(h).\widehat{R}\left(\mathfrak{L}_D\right) \leqslant \widehat{R}\left(h^*\right) .

  根据 Hoeffding 不等式可知,以至少 1δ/21-\delta / 2 的概率有

R^(h)R(h)ln(2/δ)m.\widehat{R}\left(h^*\right)-R\left(h^*\right) \leqslant \sqrt{\frac{\ln (2 / \delta)}{m}} .

  结合上面的四个式子和联合界不等式可知,以至少 1δ1-\delta 的概率有

R(LD)R(h)1m+(2+M)ln(2/δ)2m+ln(2/δ)m.R\left(\mathfrak{L}_D\right)-R\left(h^*\right) \leqslant \frac{1}{m}+(2+M) \sqrt{\frac{\ln (2 / \delta)}{2 m}}+\sqrt{\frac{\ln (2 / \delta)}{m}} .

  不妨令

ϵ=1m+(2+M)ln(2/δ)2m+ln(2/δ)m,\epsilon=\frac{1}{m}+(2+M) \sqrt{\frac{\ln (2 / \delta)}{2 m}}+\sqrt{\frac{\ln (2 / \delta)}{m}},

  从 (5.44) 求解出 m(ϵ,δ)=O(1ϵ2ln1δ)m(\epsilon, \delta)=O\left(\frac{1}{\epsilon^2} \ln \frac{1}{\delta}\right). 因此当 mm(ϵ,δ)m \geqslant m(\epsilon, \delta) 时有

P(R(LD)R(h)ϵ)1δ.P\left(R\left(\mathfrak{L}_D\right)-R\left(h^*\right) \leqslant \epsilon\right) \geqslant 1-\delta .

  考虑到 ln(1/δ)1/δ\ln (1 / \delta) \leqslant 1 / \delta,因此存在多项式 poly(1/ϵ,1/δ)m(ϵ,δ)\operatorname{poly}(1 / \epsilon, 1 / \delta) \geqslant m(\epsilon, \delta),使得当 mpoly(1/ϵ,1/δ)m \geqslant \operatorname{poly}(1 / \epsilon, 1 / \delta) 时上式成立,定理得证。