泛化界 ——《机器学习理论导引》第四章学习笔记(上)

226 阅读11分钟

《机器学习理论导引》笔记目录

0 破事水 感言

   当我在完成本科毕业论文后更新完第三章的时候,我无论如何都不会想到 : 关于第四章的学习,会拖延到半年以后。这就使得事情变得有些滑稽了起来 : 前三章的具体内容在我的脑海里已经烟消云散,但是我仍要努力地去 “狗尾续貂”。

  其实在过年那会儿,在反思过去的一年的时候,我就努力在想 : 系统性地去了解理论机器学习,到底有什么好处? 虽然自己做的也确实需要用到一些理论机器学习,但是并不需要这么多、这么全面。而且更难受的是 : 好不容易努力地将这些高深到不属于自己脑子的知识塞进脑子不久,就会因为不太使用而逐渐淡忘。那到底是为什么呢?

  最后我想通了 : 很多知识我们其实并不能完全理解,但我们仍要努力学习,这不是一种 “夸父逐日” 的壮烈与惨烈,而是要带着一种更高知识层次的视野来看待问题 : 虽然可能不熟练,但是我知道从哪些角度来思考问题,真的如果需要具体解决这些问题的时候我也知道在哪里去寻找我想要的资料来辅助我解决需要解决的问题。这也许就是我们孜孜不倦 “活到老,学到老” 的更深层的好处吧。

  最后,还是感谢组里的师兄师姐留下的宝贵的 PPT 资料,有时候真的感觉很多东西有种薪火相传的感觉。我也会不断改进自己的排版使得大家都能看得更清晰明了。冲呀我的小空调毯!

0.1 来点这一章的引言 (这一章的知识在解决什么问题呢?)

  判断一个学习算法的性能优劣,我们往往通过衡量其泛化误差的大小。第 2 章介绍的 PAC 学习理论告诉我们,学习算法的泛化误差与假设空间 H\mathcal{H}、训练集大小 mm 以及数据分布 D\mathcal{D} 有关。

  同时非常符合直觉地,我们研究一个量会考察其上界与下届那样,我们也从泛化误差上界和下界分别展开讨论。

4.1 泛化误差上界

4.1.1 有限假设空间

定义回顾

  • 概念 cc : 从样本空间 X\mathcal{X} 到标记空间 Y\mathcal{Y} 的映射
  • 假设空间 H\mathcal{H} : 学习算法考虑的所有可能概念的集合
  • 根据假设空间内概念的数目,我们把假设空间分为有限假设空间无限假设空间
  • 根据目标概念 cc 是否在 H\mathcal{H} 中,我们把 H\mathcal{H} 分为可分 H\mathcal{H}不可分 H\mathcal{H}

可分有限假设空间

定义 2.2.PAC 可学

  令 mm 表示从分布 D\mathcal{D} 独立同分布采样得到的样本数目,0<ϵ,δ<10<\epsilon,\delta<1,对所有分布 D\mathcal{D},若存在学习算法 L\mathcal{L} 和多项式函数 poly(,,,)poly(\cdot,\cdot,\cdot,\cdot),使得对于任何 mpoly(1ϵ,1δ,size(x),size(c))m\geqslant poly(\frac{1}{\epsilon},\frac{1}{\delta},\text{size}(x),\text{size}(c))L\mathcal{L} 能从假设空间 H\mathcal{H} 中 PAC 辨识概念类 C\mathcal{C},则称概念类 C\mathcal{C} 对假设空间 H\mathcal{H} 而言是 PAC 可学的,有时也简称概念类 C\mathcal{C} 是 PAC 可学的。


  根据定义 2.2,只要我们能找到一个下界,使得在训练集规模大于这个下界的时候,学习算法 L\mathcal{L} 能够以至少 1δ1-\delta 的概率找到目标概念的 ϵ\epsilon 近似,我们就可以说这个算法所考虑的假设空间 H\mathcal{H}/概念类 C\mathcal{C} 是 PAC 可学的。


定理 4.1

  令 H\mathcal{H} 为可分的有限假设空间,DD 为从 D\mathcal{D} 独立同分布采样得到的大小为 mm 的训练集, 学习算法 L\mathfrak{L} 基于训练集 DD 输出与训练集一致的假设 hHh\in \mathcal{H},对于 0<ϵ,δ<10<\epsilon,\delta<1,若 m1ϵ(lnH+ln1δ)m\geqslant\frac{1}{\epsilon}\left(\ln\lvert\mathcal{H}\rvert+\ln\frac{1}{\delta}\right),则有

P(E(h)ϵ)1δP(E(h) \leqslant \epsilon) \geqslant 1-\delta

  即 E(h)ϵE(h)\leqslant\epsilon 的概率至少为 1δ1-\delta

证明

  如果 hh 的泛化误差大于 ϵ\epsilon 且与训练集一致 (即经验误差为 0),则这样的假设出现的概率可以表示为

P(hH:E(h)>ϵE^(h)=0)P(\exists h \in \mathcal{H}: E(h)>\epsilon \wedge \widehat{E}(h)=0)

  我们只需证明这一事件发生的概率至多为 δ\delta ,就可以推出它的对立事件发生的概率至少为 1δ1 − \delta,也就是定理 4.1 成立。

  根据联合界不等式,P(XY)P(X)+P(Y)P(X\cup Y)\leqslant P(X)+P(Y)

P(hH:E(h)>ϵE^(h)=0)hHP(E(h)>ϵE^(h)=0)<H(1ϵ)m\begin{aligned} P(\exists h \in \mathcal{H}: E(h)>\epsilon \wedge \widehat{E}(h)=0) & \leqslant \sum_{h \in \mathcal{H}} P(E(h)>\epsilon \wedge \widehat{E}(h)=0) \\ & <|\mathcal{H}|(1-\epsilon)^m \end{aligned}

  E(h)>ϵE(h)>\epsilon 说明假设 hh 在数据分布 D\mathcal{D} 上犯错的平均概率大于 ϵ\epsilon,又因为 DD 是从数据分布 D\mathcal{D} 上独立同分布采样的,所以第二个小于号成立。

  现在只需要保证小于号最右端不大于 δ\delta 即可。由于 (1ϵ)meϵm(1−\epsilon)^m\leqslant e^{−\epsilon m},若 m1ϵ(lnH+ln1δ)m\geqslant\frac{1}{\epsilon}\left(\ln\lvert\mathcal{H}\rvert+\ln\frac{1}{\delta}\right),则有

H(1ϵ)mHeϵmδ|\mathcal{H}|(1-\epsilon)^m \leqslant|\mathcal{H}| e^{-\epsilon m} \leqslant \delta

  从而可知 P(E(h)>ϵ)δP(E(h)>\epsilon)\leqslant\delta,即 P(E(h)ϵ)1δP(E(h)\leqslant\epsilon)\geqslant 1 −\delta,定理得证。


引理 2.1

  若训练集 DD 包含 mm 个从分布 D\mathcal{D} 上独立同分布采样而得的样本,则对任意 hHh\in\mathcal{H},有

P(E(h)E^(h)ϵ)2exp(2mϵ2)P(|E(h)-\hat{E}(h)| \geqslant \epsilon) \leqslant 2 \exp \left(-2 m \epsilon^2\right)

定理 4.2

  令 H\mathcal{H} 为可分的有限假设空间,DD 为从 D\mathcal{D} 独立同分布采样得到的大小为 mm 的训练集,hHh\in\mathcal{H},对于 0<δ<10<\delta<1,有

P(E(h)E^(h)lnH+ln(2/δ)2m)1δP\left(|E(h)-\hat{E}(h)| \leqslant \sqrt{\frac{\ln |\mathcal{H}|+\ln (2 / \delta)}{2 m}}\right) \geqslant 1-\delta

证明

  将 H\mathcal{H} 中的有限假设记为 h1,h2,,hHh1,h2,\ldots,h_{\lvert\mathcal{H}\rvert},根据联合界不等式可得

P(hH:E^(h)E(h)>ϵ)=P((E^(h1)E(h1)>ϵ)(E^(hH)E(hHϵ))hHP(E^(h)E(h)>ϵ)\begin{aligned} & P(\exists h \in \mathcal{H}:|\widehat{E}(h)-E(h)|>\epsilon) \\ = & P\left(\left(\left|\hat{E}\left(h_1\right)-E\left(h_1\right)\right|>\epsilon\right) \vee \cdots \vee\left(\mid \widehat{E}\left(h_{|\mathcal{H}|}\right)-E\left(h_{|\mathcal{H}|}|\rangle \epsilon\right)\right)\right. \\ \leqslant & \sum_{h \in \mathcal{H}} P(|\widehat{E}(h)-E(h)|>\epsilon) \end{aligned}

  基于引理 2.1,令 2exp(2mϵ2)=δH2\exp(-2m\epsilon^2)=\frac{\delta}{\lvert\mathcal{H}\rvert},即有

P(E^(h)E(h)>ϵ)hHδH=δP(|\widehat{E}(h)-E(h)|>\epsilon) \leqslant \sum_{h \in \mathcal{H}} \frac{\delta}{\lvert\mathcal{H}\rvert}= \delta

  由 2exp(2mϵ2)=δH2\exp(-2m\epsilon^2)=\frac{\delta}{\lvert\mathcal{H}\rvert} 可以得到 ϵ=lnH+ln(2/δ)2m\epsilon=\sqrt{\frac{\ln |\mathcal{H}|+\ln (2 / \delta)}{2 m}},从而得证。

4.1.2 无限假设空间

增长函数

  对于 mNm\in\mathbb{N},假设空间 H\mathcal{H} 的增长函数 (growth function) ΠH(m)\Pi_\mathcal{H}(m) 表示为

ΠH(m)=max{x1,,xm}X{(h(x1),,h(xm))hH}\Pi_{\mathcal{H}}(m)=\max _{\left\{\mathbf{x}_1, \ldots, \mathbf{x}_m\right\} \subset \mathcal{X}}\left|\left\{\left(h\left(\boldsymbol{x}_1\right), \ldots, h\left(\boldsymbol{x}_m\right)\right) \mid h \in \mathcal{H}\right\}\right|

  增长函数 ΠH(m)\Pi_\mathcal{H}(m) 表示假设空间 H\mathcal{H}mm 个样本所能赋予标记的最大可能的结果数。

定义 3.1. VC维

  VC维 : 假设空间 H\mathcal{H} 的 VC 维是能被 H\mathcal{H} 打散的最大样本集的大小,即

VC(H)=max{m:ΠH(m)=2m}V C(\mathcal{H})=\max \left\{m: \Pi_{\mathcal{H}}(m)=2^m\right\}

Chebyshev 不等式(回顾)

  ϵ>0\forall\epsilon>0

P(XE[X]ϵ)V[X]ϵ2P(\lvert X-\mathbb{E}[X]\rvert\geqslant\epsilon)\leqslant\frac{\mathbb{V}[X]}{\epsilon^2}

引理 4.1

  对于假设空间 H,hH,mN\mathcal{H},h\in\mathcal{H},m\in\mathbb{N}0<ϵ<10<\epsilon<1,当 m2ϵ2m\geqslant\frac{2}{\epsilon^2} 时有

P(E(h)E^(h)>ϵ)4ΠH(2m)exp(mϵ28)P(|E(h)-\widehat{E}(h)|>\epsilon) \leqslant 4 \Pi_{\mathcal{H}}(2 m) \exp \left(-\frac{m \epsilon^2}{8}\right)

证明

  考虑两个大小均为 mm 且分别从数据分布 D\mathcal{D} 中独立同分布采样得到的训练集 DDDD',首先证明

P(suphHE^D(h)E^D(h)12ϵ)12P(suphHE(h)E^D(h)>ϵ)P\left(\sup _{h \in \mathcal{H}}\left|\hat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right) \geqslant \frac{1}{2} P\left(\sup _{h \in \mathcal{H}}\left|E(h)-\widehat{E}_D(h)\right|>\epsilon\right)

  用 QQ 表示集合

Q={DDmsuphHE(h)E^D(h)>ϵ}Q=\left\{D\sim\mathcal{D}^m|\sup_{h\in\mathcal{H}}\left\rvert E(h)-\widehat{E}_D(h)\right\rvert>\epsilon\right\}

  计算可得

P(suphHE^D(h)E^D(h)12ϵ)=ED,DDm[I(suphHE^D(h)E^D(h)12ϵ)]=EDDm[EDDm[I(suphHE^D(h)E^D(h)12ϵ)]]EDQ[EDDm[I(suphHE^D(h)E^D(h)12ϵ)]]\begin{aligned} & P\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right) \\ = & \mathbb{E}_{D, D^{\prime} \sim \mathcal{D}^m}\left[\mathbb{I}\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right] \\ = & \mathbb{E}_{D \sim \mathcal{D}^m}\left[\mathbb{E}_{D^{\prime} \sim \mathcal{D}^m}\left[\mathbb{I}\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right]\right] \\ \geqslant & \mathbb{E}_{D \in Q}\left[\mathbb{E}_{D^{\prime} \sim \mathcal{D}^m}\left[\mathbb{I}\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right]\right] \end{aligned}

  根据 QQ 的定义可知,对于任意 DQD\in Q,存在一个假设 h0Hh_0\in\mathcal{H} 使得 E(h0)E^D(h0)>ϵ\lvert E(h_0)-\widehat{E}_D(h_0)\rvert>\epsilon,对于 h0h_0,计算可得

EDDm[I(suphHE^D(h)E^D(h)12ϵ)]EDDm[I(E^D(h0)E^D(h0)12ϵ)]=EDDm[I(E^D(h0)E(h0)(E^D(h0)E(h0))12ϵ)]EDDm[I(E^D(h0)E(h0)E^D(h0)E(h0)12ϵ)]\begin{aligned} & \mathbb{E}_{D^{\prime} \sim \mathcal{D}^m}\left[\mathbb{I}\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right] \\ \geqslant \mathbb{E}_{D^{\prime} \sim \mathcal{D}^m} & {\left[\mathbb{I}\left(\left|\widehat{E}_D\left(h_0\right)-\widehat{E}_{D^{\prime}}\left(h_0\right)\right| \geqslant \frac{1}{2} \epsilon\right)\right] } \\ =\mathbb{E}_{D^{\prime} \sim \mathcal{D}^m} & {\left[\mathbb{I}\left(\left|\widehat{E}_D\left(h_0\right)-E\left(h_0\right)-\left(\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right)\right| \geqslant \frac{1}{2} \epsilon\right)\right] } \\ \geqslant \mathbb{E}_{D^{\prime} \sim \mathcal{D}^m} & {\left[\mathbb{I}\left(\left|\widehat{E}_D\left(h_0\right)-E\left(h_0\right)\right|-\left|\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right| \geqslant \frac{1}{2} \epsilon\right)\right] } \end{aligned}

  E^D(h0)E(h0)>ϵ\left|\widehat{E}_D\left(h_0\right)-E\left(h_0\right)\right|>\epsilon,若 E^D(h0)E(h0)ϵ2\left|\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right|\le\frac{\epsilon}{2},则 E^D(h0)E(h0)E^D(h0)E(h0)12ϵ\left|\widehat{E}_D\left(h_0\right)-E\left(h_0\right)\right|-\left|\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right| \geqslant \frac{1}{2} \epsilon 成立,即前者是后者的一个充分条件。

EDDm[I(suphHE^D(h)E^D(h)12ϵ)]EDDm[I(E^D(h0)E(h0)(E^D(h0)E(h0))12ϵ)]EDDm[I(E^D(h0)E(h0)12ϵ)]=P(E^D(h0)E(h0)12ϵ)=1P(E^D(h0)E(h0)>12ϵ)\begin{aligned} & \mathbb{E}_{D^{\prime} \sim \mathcal{D}^m}\left[\mathbb{I}\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right] \\ \geqslant & \mathbb{E}_{D^{\prime} \sim \mathcal{D}^m}\left[\mathbb{I}\left(\left|\widehat{E}_D\left(h_0\right)-E\left(h_0\right)\right|-\left|\left(\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right)\right| \geqslant \frac{1}{2} \epsilon\right)\right] \\ \geqslant & \mathbb{E}_{D^{\prime} \sim \mathcal{D}^m}\left[\mathbb{I}\left(\left|\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right| \leqslant \frac{1}{2} \epsilon\right)\right] \\ = & P\left(\left|\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right| \leqslant \frac{1}{2} \epsilon\right) \\ = & 1-P\left(\left|\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right|>\frac{1}{2} \epsilon\right) \end{aligned}

  E(h0)E(h_0)E^D(h0)\widehat{E}_{D^{\prime}}\left(h_0\right) 在数据分布 DD 上的期望,代入 Chebyshev 不等式

P(E^D(h0)E(h0)>12ϵ)4(1E(h0)E(h0))ϵ2m1ϵ2mP\left(\left|\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right|>\frac{1}{2} \epsilon\right)\\ \leqslant \frac{4(1-E(h_0)E(h_0))}{\epsilon^2m}\leqslant \frac{1}{\epsilon^2m}

  当 m2ϵ2m\geqslant\frac{2}{\epsilon^2} 时 (引理中给定的范围),P(E^D(h0)E(h0)>12ϵ)12P\left(\left|\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right|>\frac{1}{2} \epsilon\right)\leqslant\frac{1}{2},于是可得

P(suphHE^D(h)E^D(h)12ϵ)EDQ[EDDm[I(suphHE^D(h)E^D(h)12ϵ)]]EDQ[1P(E^D(h0)E(h0)>12ϵ)]EDQ[12]=12P(suphHE(h)E^D(h)>ϵ)\begin{aligned} & P\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right) \\ \geqslant & \mathbb{E}_{D \in Q}\left[\mathbb{E}_{D^{\prime} \sim D^m}\left[\mathbb{I}\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right]\right] \\ \geqslant & \mathbb{E}_{D \in Q}\left[1-P\left(\left|\widehat{E}_{D^{\prime}}\left(h_0\right)-E\left(h_0\right)\right|>\frac{1}{2} \epsilon\right)\right] \\ \geqslant & \mathbb{E}_{D \in Q}\left[\frac{1}{2}\right] = \frac{1}{2} P\left(\sup _{h \in \mathcal{H}}\left|E(h)-\widehat{E}_D(h)\right|>\epsilon\right) \end{aligned}

  由于 DDDD' 均为从 D\mathcal{D} 独立同分布采样得到的大小为 mm 的训练集,则 DDDD′ 一共包含 2m2m 个样本。

  令 TiT_i 表示这 2m2m 个样本上的置换,则有 (2m)!(2m)!TiT_i,令 TiDT_iD 表示 2m2m 个样本经过置换 TiT_i 的前 mm 个样本,TiDT_i D' 表示这 2m2m 个样本经过置换 TiT_i 的后 mm 个样本,则对于 D,DD,D'TiDT_iDTiDT_i D'

P(suphHE^D(h)E^D(h)12ϵ)=ED,D[I(suphHE^D(h)E^D(h)12ϵ)]=ED,D[1(2m)!i=1(2m)!I(suphHE^TiD(h)E^TiD(h)12ϵ)]=ED,D[1(2m)!i=1(2m)!suphHI(E^TiD(h)E^TiD(h)12ϵ)]ED,D[hHD+D1(2m)!i=1(2m)!I(E^TiD(h)E^TiD(h)12ϵ)]\begin{aligned} & P\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right) \\ & =\mathbb{E}_{D, D^{\prime}}\left[\mathbb{I}\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right] \\ & =\mathbb{E}_{D, D^{\prime}}\left[\frac{1}{(2 m) !} \sum_{i=1}^{(2 m) !} \mathbb{I}\left(\sup _{h \in \mathcal{H}}\left|\widehat{E}_{T_i D}(h)-\widehat{E}_{T_i D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right] \\ & =\mathbb{E}_{D, D^{\prime}}\left[\frac{1}{(2 m) !} \sum_{i=1}^{(2 m) !} \sup _{h \in \mathcal{H}} \mathbb{I}\left(\left|\widehat{E}_{T_i D}(h)-\widehat{E}_{T_i D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right] \\ & \leqslant \mathbb{E}_{D, D^{\prime}}\left[\sum_{h \in \mathcal{H}_{\mid D+D^{\prime}}} \frac{1}{(2 m) !} \sum_{i=1}^{(2 m) !} \mathbb{I}\left(\left|\widehat{E}_{T_i D}(h)-\widehat{E}_{T_i D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right] \\ & \end{aligned}

  其中 HD+D\mathcal{H}_{\mid D+D^{\prime}}H\mathcal{H} 在训练集 D+DD+D^{\prime} 上的限制

1(2m)!i=1(2m)!I(E^TiD(h)E^TiD(h)12ϵ)=k[I](lk)(2mlmk)(2mm)2exp(ϵ2m8)s.t.2k/ml/mϵ/2\begin{aligned} & \frac{1}{(2 m) !} \sum_{i=1}^{(2 m) !} \mathbb{I}\left(\left|\widehat{E}_{T_i D}(h)-\widehat{E}_{T_i D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)=\sum_{k \in[I]} \frac{\left(\begin{array}{c} l \\ k \end{array}\right)\left(\begin{array}{c} 2 m-l \\ m-k \end{array}\right)}{\left(\begin{array}{c} 2 m \\ m \end{array}\right)} \\ & \leq 2 \exp \left(-\frac{\epsilon^2 m}{8}\right) \\ &\\ &\text{s.t.} |2 \mathrm{k} / \mathrm{m}-\mathrm{l} / \mathrm{m}| \geqslant \epsilon / 2& \end{aligned}

  kk 表示 TiDT_iD 中被 hh 预测正确的样本数目,mkm−k 指预测错误的样本数目,(lk)\left(\begin{array}{c} l \\ k \end{array}\right) 表示从 ll 个预测正确的样本中选择 kk 个样本的种数,(2mlmk)\left(\begin{array}{c} 2 m-l \\ m-k \end{array}\right) 指从 2ml2m−l 个预测错误的样本中选择 mkm−k 个样本的种数

P(E(h)E^D(h)>ϵ)P(suphHE(h)E^(h)>ϵ)2P(suphHE^D(h)E^D(h)12ϵ)2ED,D[hHD+D1(2m)!i=1(2m)!I(E^TiD(h)E^TiD(h)12ϵ)]4HD+Dexp(ϵ2m8)4ΠH(2m)exp(mϵ28)\begin{aligned} & P\left(\left|E(h)-\widehat{E}_D(h)\right|>\epsilon\right) \\ \leqslant & P\left(\sup _{h \in \mathcal{H}}|E(h)-\widehat{E}(h)|>\epsilon\right) \\ \leqslant & 2 P\left(\sup _{h \in \mathcal{H}}\left|\hat{E}_D(h)-\widehat{E}_{D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right) \\ \leqslant & 2 \mathbb{E}_{D, D^{\prime}}\left[\sum_{h \in \mathcal{H}_{\mid D+D^{\prime}}} \frac{1}{(2 m) !} \sum_{i=1}^{(2 m) !} \mathbb{I}\left(\left|\widehat{E}_{T_i D}(h)-\widehat{E}_{T_i D^{\prime}}(h)\right| \geqslant \frac{1}{2} \epsilon\right)\right] \\ \leqslant & 4\left|\mathcal{H}_{\mid D+D^{\prime}}\right| \exp \left(-\frac{\epsilon^2 m}{8}\right) \\ \leqslant & 4 \Pi_{\mathcal{H}}(2 m) \exp \left(-\frac{m \epsilon^2}{8}\right) \end{aligned}

  引理 4.1 得证。


定理 3.1

  若假设空间 H\mathcal{H} 的 VC维为 dd,则对任意整数 mdm\geqslant d

ΠH(m)(emd)d\Pi_\mathcal{H}(m) \leqslant \left(\frac{e\cdot m}{d}\right)^d

定理 4.3

  若假设空间 H\mathcal{H} 的有限 VC维为 d,hHd,h\in\mathcal{H},则对 m>dm>d0<δ<10<\delta<1

P(E(h)E^(h)8dln2emd+8ln4δm)1δP\left(|E(h)-\widehat{E}(h)| \leqslant \sqrt{\frac{8 d \ln \frac{2 e m}{d}+8 \ln \frac{4}{\delta}}{m}}\right) \geqslant 1-\delta

证明

  定理 4.3 等价于 P(E(h)E^(h)8dln2emd+8ln4δm)δP\left(|E(h)-\widehat{E}(h)| \geqslant \sqrt{\frac{8 d \ln \frac{2 e m}{d}+8 \ln \frac{4}{\delta}}{m}}\right) \leqslant \delta,设

ϵϵ8dln2emd+8ln4δmP(E(h)E^(h)ϵ)4ΠH(2m)exp(mϵ28)4(2emd)dexp(mϵ28)=δ\begin{aligned} \epsilon & \epsilon \sqrt{\frac{8 d \ln \frac{2 e m}{d}+8 \ln \frac{4}{\delta}}{m}} \\ & P(|E(h)-\widehat{E}(h)| \geqslant \epsilon) \\ \leqslant & 4 \Pi_{\mathcal{H}}(2 m) \exp \left(-\frac{m \epsilon^2}{8}\right) \\ \leqslant & 4\left(\frac{2 e m}{d}\right)^d \exp \left(-\frac{m \epsilon^2}{8}\right) \\ = & \delta \end{aligned}

基于 Rademacher复杂度的泛化误差界

  考记实值函数空间 F:ZR\mathcal{F}:\mathcal{Z} \mapsto\mathbb{R},令 Z={z1,,zm}Z = \left\{z_1,\ldots,z_m\right\},其中 ziZz_i\in \mathcal{Z}

定义 3.3

  函数空间 F\mathcal{F} 关于 ZZ 的经验 Rademacher 复杂度为

R^Z(F)=Eσ[supfF1mi=1mσif(zi)]\hat{\mathfrak{R}}_Z(\mathcal{F})=\mathbb{E}_{\sigma}\left[\sup_{f\in \mathcal{F}}\frac{1}{m}\sum_{i=1}^m \sigma_i f(z_i)\right]

  这里 ZZ 是一个给定集合,经验 Rademacher 复杂度衡量了函数空间 F\mathcal{F} 与随机噪声在 ZZ 上的相关性。

定义 3.4

  函数空间 F\mathcal{F} 关于 ZZ 在分 D\mathcal{D} 上的 Rademacher 复杂度为

m(F)=EZZ:Z=m[R^Z(F)]\Re_m(\mathcal{F})=\mathbb{E}_{Z \subset \mathcal{Z}:|Z|=m}\left[\hat{\mathfrak{R}}_Z(\mathcal{F})\right]

McDiarmid 不等式(回顾)

  对 mm 个独立随机变量 XiX,i[m]X_i \in \mathcal{X},i \in [m],若 f:XmRf : \mathcal{X}^ m \rightarrow \mathbb{R} 是关于 XiX_i 的实值函数且 x1,,xm,xiX\forall x_1,\ldots,x_m, x'_i \in \mathcal{X} 都有

f(x1,...,xi,...,xm)f(x1,...,xi,...,xm)ci|f(x_1,...,x_i,...,x_m)-f(x_1,...,x_i',...,x_m)|\le c_i

  则 ϵ>0\forall\epsilon>0

P(f(x1,...,xi,...,xm)E[f(x1,...,xi,...,xm)]ϵ)e2ϵ2i=1mci2P(f(x1,...,xi,...,xm)E[f(x1,...,xi,...,xm)]ϵ)e2ϵ2i=1mci2P(f(x_1,...,x_i,...,x_m)-\mathbb{E}[f(x_1,...,x_i,...,x_m)]\ge\epsilon)\le e^{-\frac{2\epsilon^2}{\sum_{i=1}^m c_i^2}}\\ P(f(x_1,...,x_i,...,x_m)-\mathbb{E}[f(x_1,...,x_i,...,x_m)]\le-\epsilon)\le e^{-\frac{2\epsilon^2}{\sum_{i=1}^m c_i^2}}

Jensen 不等式

  对任意凸函数f()f(\cdot)

f(E[X])E[f(X)]f(\mathbb{E}[X])\le \mathbb{E}[f(X)]

定理 4.4

  对于实值函数空间 F:Z[0,1]\mathcal{F} : \mathcal{Z} \mapsto [0, 1],从分布 DD 独立同分布采样得到的大小为 mm 的训练集 Z={z1,z2,,zm},ziZ,fFZ=\{z_1,z_2,\ldots,z_m\},z_i\in\mathcal{Z},f\in\mathcal{F}0<δ<10<\delta<1,以至少 1δ1 −\delta 的概率有

E[f(z)]1mi=1mf(zi)+2m(F)+ln(1/δ)2mE[f(z)]1mi=1mf(zi)+2R^Z(F)+3ln(2/δ)2m\begin{aligned} & \mathbb{E}[f(z)] \leqslant \frac{1}{m} \sum_{i=1}^m f\left(z_i\right)+2 \Re_m(\mathcal{F})+\sqrt{\frac{\ln (1 / \delta)}{2 m}} \\ & \mathbb{E}[f(z)] \leqslant \frac{1}{m} \sum_{i=1}^m f\left(z_i\right)+2 \widehat{R}_Z(\mathcal{F})+3 \sqrt{\frac{\ln (2 / \delta)}{2 m}} \end{aligned}

证明

E^Z(f)=1mi=1mf(zi)Φ(Z)=supfF(E[f]E^Z(f))\color{blue}\widehat{E}_Z(f)=\frac{1}{m}\sum_{i=1}^m f(z_i)\\ \Phi(Z)=\sup_{f\in\mathcal{F}}\left(\mathbb{E}[f]-\widehat{E}_Z(f)\right)\\

  ZZ' 为与 ZZ 仅有一个样本不同的训练集,不妨设 zmZz_m\in ZzmZz'_m\in Z',为不同样本, 可得

Φ(Z)Φ(Z)=supfF(E[f]E^Z(f))supfF(E[f]E^Z(f))supfF(E^Z(f)E^Z(f))=supfFf(zm)f(zm)m1m\begin{aligned} & \Phi\left(Z^{\prime}\right)-\Phi(Z) \\ = & \sup _{f \in \mathcal{F}}\left(\mathbb{E}[f]-\widehat{E}_{Z^{\prime}}(f)\right)-\sup _{f \in \mathcal{F}}\left(\mathbb{E}[f]-\widehat{E}_Z(f)\right) \\ \leqslant & \sup _{f \in \mathcal{F}}\left(\widehat{E}_Z(f)-\widehat{E}_{Z^{\prime}}(f)\right) \\ = & \sup _{f \in \mathcal{F}} \frac{f\left(z_m\right)-f\left(z_m^{\prime}\right)}{m} \leqslant \frac{1}{m} \end{aligned}

  同理可得

Φ(Z)Φ(Z)1mΦ(Z)Φ(Z)1m\Phi(Z)-\Phi(Z')\leqslant\frac{1}{m}\\ \left\lvert\Phi(Z)-\Phi(Z')\right\rvert\leqslant\frac{1}{m}

  由 McDiarmid 不等式可得,对于 0<δ<10<\delta<1,有

Φ(Z)EZ[Φ(Z)]+ln(1/δ)2m\color{blue}\Phi(Z)\leqslant\mathbb{E}_Z[\Phi(Z)]+\sqrt{\frac{\ln(1/\delta)}{2m}}\\

  以至少 1δ1-\delta 的概率成立,下面估计 EZ[Φ(Z)]\mathbb{E}_Z[\Phi(Z)] 的上界

EZ[Φ(Z)]=EZ[supfF(E[f]E^Z(f))]=EZ[supfFEZ[E^Z(f)E^Z(f)]]EZ,Z[supfF(E^Z(f)E^Z(f))]=EZ,Z[supfF1mi=1m(f(zi)f(zi))]=Eσ,Z,Z[supfF1mi=1mσi(f(zi)f(zi))]Eσ,Z[supfF1mi=1mσif(zi)]+Eσ,Z[supfF1mi=1mσif(zi)]=2Eσ,Z[supfF1mi=1mσif(zi)]=()2Rm(F)\begin{aligned} &{\color{blue} \mathbb{E}_Z[\Phi(Z)]} \\ = & \mathbb{E}_Z\left[\sup_{f\in\mathcal{F}}\left(\mathbb{E}[f]-\widehat{E}_Z(f)\right)\right] \\ = & \mathbb{E}_Z\left[\sup_{f\in\mathcal{F}}\mathbb{E}_{Z'}\left[\widehat{E}_{Z'}(f)-\widehat{E}_Z(f)\right]\right] \\ \leqslant & \mathbb{E}_{Z,Z'}\left[\sup_{f\in\mathcal{F}}\left(\widehat{E}_{Z'}(f)-\widehat{E}_Z(f)\right)\right] \\ \\ = & \mathbb{E}_{Z, Z^{\prime}}\left[\sup _{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^m\left(f\left(z_i\right)-f\left(z_i\right)\right)\right] \\ = & \mathbb{E}_{\boldsymbol{\sigma}, Z, Z^{\prime}}\left[\sup _{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^m \sigma_i\left(f\left(z_i^{\prime}\right)-f\left(z_i\right)\right)\right] \\ \leqslant &\mathbb{E}_{\boldsymbol{\sigma}, Z^{\prime}}\left[\sup _{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^m \sigma_i f\left(z_i\right)\right]+\mathbb{E}_{\boldsymbol{\sigma}, Z}\left[\sup _{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^m-\sigma_i f\left(\mathbf{z}_i\right)\right] \\ = & 2 \mathbb{E}_{\boldsymbol{\sigma}, \boldsymbol{Z}}\left[\sup _{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^m \sigma_i f\left(\mathbf{z}_i\right)\right] \\ = & {\color{blue} (\leqslant)2 \mathfrak{R}_m(\mathcal{F})} \end{aligned}

  将几个标蓝的式子代入,即有

EZ[Φ(Z)]1mi=1mf(zi)Φ(Z)EZ[Φ(Z)]+ln(1/δ)2m2Rm(F)+ln(1/δ)2m\begin{aligned} & \mathbb{E}_Z[\Phi(Z)] - \frac{1}{m}\sum_{i=1}^m f(z_i)\\ \leqslant & \Phi(Z) \\ \leqslant & \mathbb{E}_Z[\Phi(Z)] + \sqrt{\frac{\ln(1/\delta)}{2m}} \\ \leqslant & 2 \mathfrak{R}_m(\mathcal{F}) + \sqrt{\frac{\ln(1/\delta)}{2m}} \\ \end{aligned}

  即定理 4.4 的第一条不等式成立。

  根据定义可知替换训练集中的一个样本后经验 Rademacher 复杂度最多改变 1m\frac{1}{m}, 即 ^Z(F)^Z(F)1m\left\lvert\widehat{\Re}_Z(\mathcal{F})-\widehat{\Re}_{Z^{\prime}}(\mathcal{F}) \right\rvert \leqslant \frac{1}{m}

  同理,由 McDiarmid 不等式可得

^m(F)R^Z(F)+ln(2/δ)2m(1)\color{blue}\widehat{\Re}_m(\mathcal{F})\leqslant\widehat{\mathfrak{R}}_Z(\mathcal{F})+\sqrt{\frac{\ln(2/\delta)}{2m}}\tag{1}

  以至少 1δ/21-\delta/2 的概率成立。

Φ(Z)EZ[Φ(Z)]+ln(2/δ)2m(2)\color{blue}\Phi(Z)\leqslant\mathbb{E}_Z[\Phi(Z)]+\sqrt{\frac{\ln(2/\delta)}{2m}}\tag{2}

  以至少 1δ/21-\delta/2 的概率成立。

  令 XX 表示不等式 (1) 不成立,YY 表示不等式 (2) 不成立。由联合界不等式得

P(XY)P(X)+P(Y)P(X\bigcup Y)\leqslant P(X)+P(Y)

  那么不等式 (1) 或者不等式 (2) 不成立的概率小于 δ\delta,即不等式 (1) 和不等式 (2) 同时成立的概率大于 1δ1−\delta

Φ(Z)EZ[Φ(Z)]+ln(2/δ)2m2Rm(F)+ln(2/δ)2m2^Z(F)+3ln(2/δ)2m\begin{aligned} \Phi(Z) & \leqslant \mathbb{E}_Z[\Phi(Z)] + \sqrt{\frac{\ln(2/\delta)}{2m}} \\ & \leqslant 2 \mathfrak{R}_m(\mathcal{F}) + \sqrt{\frac{\ln(2/\delta)}{2m}} \\ & \leqslant 2 \widehat{\Re}_Z(\mathcal{F})+3\sqrt{\frac{\ln(2/\delta)}{2m}} \\ \end{aligned}

  以至少 1δ1 −\delta 的概率成立, 定理 4.4 的第二条不等式成立。


  定理 4.4 适用于回归问题,对于分类问题有 :

定理 4.5

  对于假设空间 H:X{1,+1}\mathcal{H} : \mathcal{X}\mapsto\{−1, +1\},从分布 D\mathcal{D} 独立同分布采样得到的大小为 mm 的训练集 D={x1,,xm},xiX,hHD=\{x_1,\ldots,x_m\},x_i\in\mathcal{X},h\in\mathcal{H}0<δ<10 < \delta< 1,以至少 1δ1 − \delta 的概率有

E(h)E^(h)+m(H)+ln(1/δ)2mE(h)E^(h)+^D(H)+3ln(2/δ)2m\begin{aligned} & E(h) \leqslant \widehat{E}(h)+\Re_m(\mathcal{H})+\sqrt{\frac{\ln (1 / \delta)}{2 m}} \\ & E(h) \leqslant \widehat{E}(h)+\widehat{\Re}_D(\mathcal{H})+3 \sqrt{\frac{\ln (2 / \delta)}{2 m}} \end{aligned}

  对于二分类问题的假设空间 H\mathcal{H},令 Z=X×{1,+1}\mathcal{Z}=\mathcal{X}\times\{−1, +1\}H\mathcal{H} 中的假设 hh 可以变形为 fh(z)=fh(x,y)=I(h(x)y)f_h(\boldsymbol{z})=f_h(\boldsymbol{x},y)=\mathbb{I}(h(\boldsymbol{x})\ne y)。于是值域为 {1,+1}\{-1,+1\} 的假设空间 H\mathcal{H} 转化为值域为 [0,1][0,1] 的函数空间 FH={fh:hH}\mathcal{F}_{\mathcal{H}}= \{f_h : h\in\mathcal{H}\}

^Z(FH)=Eσ[supfhFH1mi=1mσifh(xi,yi)]=Eσ[suphH1mi=1mσiI(h(xi)yi)]=Eσ[suphH1mi=1mσi1yih(xi)2]=12Eσ[1mi=1mσi+suphH1mi=1m(yiσih(xi))]=12Eσ[suphH1mi=1m(yiσih(xi))]=12Eσ[suphH1mi=1m(σih(xi))]=12m(H)=12R^D(H)\begin{aligned} \widehat{\Re}_Z\left(\mathcal{F}_{\mathcal{H}}\right) & =\mathbb{E}_{\boldsymbol{\sigma}}\left[\sup _{f_h \in \mathcal{F}_{\mathcal{H}}} \frac{1}{m} \sum_{i=1}^m \sigma_i f_h\left(\boldsymbol{x}_i, y_i\right)\right] \\ & =\mathbb{E}_{\boldsymbol{\sigma}}\left[\sup _{h \in \mathcal{H}} \frac{1}{m} \sum_{i=1}^m \sigma_i \mathbb{I}\left(h\left(\boldsymbol{x}_i\right) \neq y_i\right)\right] \\ & =\mathbb{E}_{\boldsymbol{\sigma}}\left[\sup _{h \in \mathcal{H}} \frac{1}{m} \sum_{i=1}^m \sigma_i \frac{1-y_i h\left(\boldsymbol{x}_i\right)}{2}\right] \\ & =\frac{1}{2} \mathbb{E}_{\boldsymbol{\sigma}}\left[\frac{1}{m} \sum_{i=1}^m \sigma_i+\sup _{h \in \mathcal{H}} \frac{1}{m} \sum_{i=1}^m\left(-y_i \sigma_i h\left(\boldsymbol{x}_i\right)\right)\right] \\ & =\frac{1}{2} \mathbb{E}_{\boldsymbol{\sigma}}\left[\sup _{h \in \mathcal{H}} \frac{1}{m} \sum_{i=1}^m\left(-y_i \sigma_i h\left(\boldsymbol{x}_i\right)\right)\right]\\ & =\frac{1}{2} \mathbb{E}_\sigma\left[\sup _{h \in \mathcal{H}} \frac{1}{m} \sum_{i=1}^m\left(\sigma_i h\left(\boldsymbol{x}_i\right)\right)\right] \\ & =\frac{1}{2} \mathfrak{\Re}_m(\mathcal{H}) \\ & =\frac{1}{2} \widehat{\mathfrak{R}}_D(\mathcal{H}) \end{aligned}

  同时对上式两边取期望可得

Z(FH)=12RD(H)\Re_Z(\mathcal{F}_{\mathcal{H}})=\frac{1}{2}\mathfrak{R}_D(\mathcal{H})

  将此式代入定理 4.4,定理 4.5 得证。