泛化界 ——《机器学习理论导引》第四章学习笔记(下)

276 阅读5分钟

《机器学习理论导引》笔记目录

4.3 分析实例

理论回顾

定理3.6

  Rd\mathbb{R}^d 中由非齐次线性超平面构成的假设空间 H\mathcal{H} 的 VC维为 d+1

定理3.7

  若 xr\lVert x\rVert\le r,D 为大小为 m 的数据集,则超平面族 H={xwTx:wΛ}\mathcal{H}=\{x\mapsto \mathbf{w}^T\mathbf{x}:\lVert \mathbf{w}\rVert\le\Lambda\} 的经验 Rademacher复杂度满足

RD^(H)r2Λ2m\hat{\mathcal{R}_D}(\mathcal{H})\le\sqrt{\frac{r^2\Lambda^2}{m}}

定理3.8

  若 xr\lVert \mathbf{x}\rVert\le r,则超平面族 {xsign(wTx):minxwTx=1wΛ}\{\mathcal{x}\mapsto\text{sign}(\mathbf{w}^T\mathbf{x}):\min_\mathbf{x}⁡|\mathbf{w}^T\mathbf{x}|=1\land\lVert \mathbf{w}\rVert\le\Lambda\} 的 VC维 d满足

dr2Λ2d\le r^2\Lambda^2

定义 3.3

  函数空间 F\mathcal{F} 关于 𝑍 的经验 Rademacher 复杂度为

定义 3.4

  函数空间 F\mathcal{F} 关于 Z\mathcal{Z} 在分布 m 上的 Rademacher 复杂度为

引理 (第一章中的 Hoeffding 不等式)

  若训练集 D\mathcal{D} 包含 m 个从分布 D\mathcal{D} 上独立同分布采样而得的样本,0<ϵ<10<\epsilon<1,则对任意 hHh\in\mathcal{H},有

P(E^(h)E(h)ϵ)exp(2mϵ2)P(E^(h)E(h)ϵ)exp(2mϵ2)P(E^(h)E(h)ϵ)2exp(2mϵ2)P\left(\hat{E}(h)-E(h)\ge\epsilon\right)\le\exp{(-2m\epsilon^2)}\\ P\left(\hat{E}(h)-E(h)\le-\epsilon\right)\le\exp{(-2m\epsilon^2)}\\ P\left(|\hat{E}(h)-E(h)|\ge\epsilon\right)\le2\exp{(-2m\epsilon^2)}

  学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,具体来说,就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。   泛化误差上界是样本容量和空间容量的函数,样本容量越大,空间容量越小,泛化误差上界越小。

间隔损失函数

  引入间隔使得泛化误差界与数据分布相关。

定义 4.1

  对任意 ρ>0\rho>0ρ\rho− 间隔损失为定义在 z,zRz,z'\in\mathbb{R} 上的损失函数 ρ:R×RR+,ρ(z,z)=Φρ(zz)\ell_\rho : \mathbb{R} \times \mathbb{R} \mapsto \mathbb{R}_+, \ell_\rho (z, z') = \Phi_\rho(zz'),其中

Φρ(x)={0ρx1x/ρ0xρ1x0\Phi_\rho(x)=\begin{cases} 0&\rho\leqslant x\\ 1-x/\rho&0\leqslant x\leqslant\rho\\ 1&x\leqslant0 \end{cases}

  对于集合 D=x1,,xmD = x_1,\ldots, x_m 与假设 hh,经验间隔损失表示为

E^ρ(h)=1mi=1mΦρ(yih(xi))\widehat{E}_\rho(h)=\frac{1}{m}\sum_{i=1}^m\Phi_\rho(y_ih(x_i))

  又 Φρ(yih(xi))Iyih(xi)ρ\Phi_\rho (y_ih(x_i)) \leqslant \mathbb{I}_{y_ih(x_i)\leqslant\rho},由拉格朗日定理可得

Φρ(x1)Φρ(x2)Φρ(ξ)x1x2\lvert\Phi_\rho(x_1)-\Phi_\rho(x_2)\rvert\leqslant\lvert\Phi^{'}_{\rho}(\xi)\rvert\lvert x_1-x_2\rvert

  由间隔损失函数定义可得

Φρ(ξ)1ρ\lvert\Phi^{'}_{\rho}(\xi)\rvert\leqslant\frac{1}{\rho}

  (补充:对于在实数集的子集的函数 f:DRRf : D\subseteq \mathbb{R}\rightarrow\mathbb{R},若存在常数 KK,使得 f(a)f(b)ab,a,bD|f(a) − f(b)| \leqslant |a − b|,\forall a, b\in D,则称 ff 符合 Lipschitz 条件,对于 ff 最小的常数 KK 称为 ff 的 Lipschitz 常数) 可知 Φρ\Phi_{\rho} 最多是 1ρ\frac{1}{\rho}-Lipschitz

Talagrand 收缩引理

引理 4.4 (Talagrand 收缩引理)

Φ:RR\Phi : \mathbb{R} \mapsto \mathbb{R}ρ\ell_{\rho}− Lipschitz 函数,则对于任意实值假设空间 H\mathcal{H} 有下式成立:

R^D(ΦH)LR^D(H)\widehat{\mathfrak{R}}_D(\Phi \circ \mathcal{H}) \leqslant L \hat{\mathfrak{R}}_D(\mathcal{H})

  说明 Lipschitz 函数与假设空间 H\mathcal{H} 复合后的经验 Rademacher 复杂度可以基于假设空间 H\mathcal{H} 的经验 Rademacher 复杂度表示

证明

  固定样本空间 D=(x1,,xm)D = (x_1,\ldots, x_m),根据定义

S(ΦH)=1mE[suphHi=1mσi(Φh)(xi)]=1mσσ1,,σm1E[Eσm[suphHum1(h)+σm(Φh)(xm)]]\begin{aligned} \Re_S(\Phi \circ H) & =\frac{1}{m} \mathrm{E}\left[\sup _{h \in H} \sum_{i=1}^m \sigma_i(\Phi \circ h)\left(x_i\right)\right] \\ & =\frac{1}{m} \sigma_{\sigma_1, \ldots, \sigma_{m-1}}^{\mathrm{E}}\left[\underset{\sigma_m}{\mathrm{E}}\left[\sup _{h \in H} u_{m-1}(h)+\sigma_m(\Phi \circ h)\left(x_m\right)\right]\right] \end{aligned}

  um1(h)=i=1m1σi(Φh)(xi)u_{m−1}(h) =\sum^{m−1}_{i=1} \sigma_i(\Phi\circ h)(x_i) 假设上确界能够达到,令 h1,h2Hh_1, h_2\in H 满足

um1(h1)+Φm(h1(xm))=suphHum1(h)+Φm(h(xm))um1(h2)Φm(h2(xm))=suphHum1(h)Φm(h(xm))\begin{aligned} & u_{m-1}\left(h_1\right)+\Phi_m\left(h_1\left(x_m\right)\right)=\sup _{h \in H} u_{m-1}(h)+\Phi_m\left(h\left(x_m\right)\right) \\ & u_{m-1}\left(h_2\right)-\Phi_m\left(h_2\left(x_m\right)\right)=\sup _{h \in H} u_{m-1}(h)-\Phi_m\left(h\left(x_m\right)\right) \end{aligned}

  如果上确界达不到,可以考虑接近 ϵ\epsilon 的上确界,可以得到类似下面的结论。因为 σm\sigma_m{1,+1}\{−1, +1\} 上的均匀分布,根据期望的定义有

E[supmHum1(h)+σm(Φh)(xm)]]=12[um1(h1)+(Φh1)(xm)]+12[um1(h2)(Φh2)(xm)]12[um1(h1)+um1(h2)+sL(h1(xm)h2(xm))]=12[um1(h1)+sLh1(xm)]+12[um1(h2)sLh2(xm)]12suphH[um1(h)+sLh(xm)]+12suphH[um1(h)sLh(xm)]=Eσm[suphHum1(h)+σmLh(xm)]\begin{aligned} & \left.\mathrm{E}\left[\sup _{m \in H} u_{m-1}(h)+\sigma_m(\Phi \circ h)\left(x_m\right)\right]\right] \\ & =\frac{1}{2}\left[u_{m-1}\left(h_1\right)+\left(\Phi \circ h_1\right)\left(x_m\right)\right]+\frac{1}{2}\left[u_{m-1}\left(h_2\right)-\left(\Phi \circ h_2\right)\left(x_m\right)\right] \\ & \leq \frac{1}{2}\left[u_{m-1}\left(h_1\right)+u_{m-1}\left(h_2\right)+s L\left(h_1\left(x_m\right)-h_2\left(x_m\right)\right)\right] \\ & =\frac{1}{2}\left[u_{m-1}\left(h_1\right)+s L h_1\left(x_m\right)\right]+\frac{1}{2}\left[u_{m-1}\left(h_2\right)-s L h_2\left(x_m\right)\right] \\ & \leq \frac{1}{2} \sup _{h \in H}\left[u_{m-1}(h)+s L h\left(x_m\right)\right]+\frac{1}{2} \sup _{h \in H}\left[u_{m-1}(h)-s L h\left(x_m\right)\right] \\ & =\underset{\sigma_m}{\mathrm{E}}\left[\sup _{h \in H} u_{m-1}(h)+\sigma_m L h\left(x_m\right)\right] \end{aligned}

  令 s=sgn(h1(xm)h2(xm))s =\text{sgn} (h_1 (x_m) − h2 (x_m)),对所有其他 i(im)i(i\ne m) 以相同的方式进行,得证。

二分类 SVM 的泛化误差界

定理 4.8 (关于 Rademacher 复杂度的泛化上界)

  令 H\mathcal{H} 为实值假设空间,给定 ρ>0\rho > 0,对于 0<δ<10 < \delta < 1hHh\in\mathcal{H},以至少 1δ1 − \delta 的概率有

E(h)E^ρ(h)+2ρm(H)+ln1δ2mE(h)E^ρ(h)+2ρ^D(H)+3ln2δ2m\begin{gathered} E(h) \leqslant \widehat{E}_\rho(h)+\frac{2}{\rho} \Re_m(\mathcal{H})+\sqrt{\frac{\ln \frac{1}{\delta}}{2 m}} \\ E(h) \leqslant \widehat{E}_\rho(h)+\frac{2}{\rho} \widehat{\Re}_D(\mathcal{H})+3 \sqrt{\frac{\ln \frac{2}{\delta}}{2 m}} \end{gathered}

证明

  构造 H~={z=(x,y)yh(x):hH}\tilde{\mathcal{H}} = \{z = (x, y)\mapsto yh(x) : h \in \mathcal{H}\},考虑值域为 [0,1][0,1] 的假设空间 F={Φρf:fH~}\mathcal{F} =\left\{\Phi_{\rho} \circ f : f \in \tilde{\mathcal{H}}\right\} 由定理 4.4 知,对所有 gFg\in \mathcal{F},以至少 1δ1 − \delta 的概率有 :

E[g(z)]1mi=1mg(zi)+2m(F)+ln1δ2m\mathbb{E}[g(z)]\leqslant\frac{1}{m}\sum_{i=1}^mg(z_i)+2\Re_m(\mathcal{F})+\sqrt{\frac{\ln \frac{1}{\delta}}{2 m}}

  因此对于 hHh\in\mathcal{H},以至少 1δ1 − \delta 的概率有:

E[Φρ(yh(x))]E^ρ(h)+2m(ΦρH~)+ln1δ2m\mathbb{E}[\Phi_{\rho}(yh(x))]\leqslant\widehat{E}_{\rho}(h)+2\Re_m\left(\Phi_{\rho}\circ\tilde{\mathcal{H}}\right)+\sqrt{\frac{\ln \frac{1}{\delta}}{2 m}}

  因为对 uR,Iu0Φρ(u)\forall u\in\mathbb{R},\mathbb{I}_{u\leqslant0}\leqslant\Phi_{\rho}(u) 成立,所以

E(h)=E[Iyh(x)0]E[Φρ(yh(x))]E(h)=\mathbb{E}\left[\mathbb{I}_{yh(x)\leqslant0}\right]\leqslant\mathbb{E}\left[\Phi_{\rho}(yh(x))\right]

  代入可知,以至少 1δ1 − \delta 的概率有:

E(h)E^ρ(h)+2m(ΦρH~)+ln1δ2mE(h)\leqslant\widehat{E}_{\rho}(h)+2\Re_m\left(\Phi_{\rho}\circ\tilde{\mathcal{H}}\right)+\sqrt{\frac{\ln \frac{1}{\delta}}{2 m}}

  由于 Φρ\Phi_{\rho}1ρ\frac{1}{\rho}-Lipschitz,由引理 4.4 可知

m(ΦρH~)1ρm(H~)\Re_m\left(\Phi_{\rho}\circ\tilde{\mathcal{H}}\right)\leqslant\frac{1}{\rho}\Re_m(\tilde{\mathcal{H}})

  又由 Rademacher 复杂度定义知

m(H~)=1mED,σ[suphHi=1mσiyih(xi)]=1mED,σ[suphHi=1mσih(xi)]=m(H)\begin{aligned} \Re_m(\tilde{\mathcal{H}})= &\frac{1}{m}\mathbb{E}_{D,\sigma}\left[\sup_{h\in\mathcal{H}}\sum_{i=1}^m\sigma_iy_ih(x_i)\right]\\ = & \frac{1}{m}\mathbb{E}_{D,\sigma}\left[\sup_{h\in\mathcal{H}}\sum_{i=1}^m\sigma_ih(x_i)\right]\\ = & \Re_m(\mathcal{H}) \end{aligned}

  代入得,以至少 1δ1 − \delta 的概率有:

m(ΦρH~)1ρm(H)E(h)E^ρ(h)+2m(ΦρH~)+ln1δ2mE^ρ(h)+2ρm(H)+ln1δ2m\Re_m\left(\Phi_{\rho}\circ\tilde{\mathcal{H}}\right)\leqslant\frac{1}{\rho}\Re_m(\mathcal{H})\\ \Rightarrow{\color{blue}E(h)}\leqslant\widehat{E}_{\rho}(h)+2\Re_m\left(\Phi_{\rho}\circ\tilde{\mathcal{H}}\right)+\sqrt{\frac{\ln \frac{1}{\delta}}{2 m}}\\{\color{blue}\leqslant\widehat{E}_\rho(h)+\frac{2}{\rho} \Re_m(\mathcal{H})+\sqrt{\frac{\ln \frac{1}{\delta}}{2 m}}}

  得证。由定理 4.4 可知,以至少 1δ1 − \delta 的概率有:

E[g(z)]1mi=1mg(zi)+2^D(F)+3ln2δ2m\mathbb{E}[g(z)]\leqslant\frac{1}{m}\sum_{i=1}^mg(z_i)+2\widehat{\Re}_D(\mathcal{F})+3\sqrt{\frac{\ln \frac{2}{\delta}}{2 m}}

  同理可证,以至少 1δ1 − \delta 的概率有:

E(h)E^ρ(h)+2^D(ΦρH)+3ln2δ2mE(h) \leqslant \widehat{E}_\rho(h)+2\widehat{\Re}_D\left(\Phi_{\rho}\circ\mathcal{H}\right)+3 \sqrt{\frac{\ln \frac{2}{\delta}}{2 m}}

  对于经验 Rademacher 复杂度,由于 Φρ\Phi_{\rho}1ρ\frac{1}{\rho}-Lipschitz,类似地有

R^D(ΦρH~)1ρR^D(H~)R^D(H~)=1mEσ[suphHi=1mσiyih(xi)]=1mEσ[suphHi=1mσih(xi)]=R^D(H)\begin{aligned} & \hat{\mathfrak{R}}_D\left(\Phi_\rho \circ \tilde{\mathcal{H}}\right) \leqslant \frac{1}{\rho} \widehat{\mathfrak{R}}_D(\tilde{\mathcal{H}}) \\ & \widehat{\mathfrak{R}}_D(\tilde{\mathcal{H}})=\frac{1}{m} \mathbb{E}_\sigma\left[\sup _{h \in \mathcal{H}} \sum_{i=1}^m \sigma_i y_i h\left(\boldsymbol{x}_i\right)\right] \\ &=\frac{1}{m} \mathbb{E}_{\boldsymbol{\sigma}}\left[\sup _{h \in \mathcal{H}} \sum_{i=1}^m \sigma_i h\left(\boldsymbol{x}_i\right)\right] \\ &=\hat{\mathfrak{R}}_D(\mathcal{H}) \end{aligned}

  则以至少 1δ1 − \delta 的概率有:

E(h)E^ρ(h)+2ρ^D(H)+3ln2δ2m\color{blue}E(h) \leqslant \widehat{E}_\rho(h)+\frac{2}{\rho} \widehat{\Re}_D(\mathcal{H})+3 \sqrt{\frac{\ln \frac{2}{\delta}}{2 m}}

定理 4.9

  令 H\mathcal{H} 为实值假设空间,对于 0<δ<10 < \delta < 1hHh\in\mathcal{H},以及任意 ρ(0,1)\rho\in(0, 1),以至少 1δ1-\delta 的概率有:

E(h)E^ρ(h)+4ρm(H)+lnlog22ρm+ln2δ2mE(h)E^ρ(h)+4ρR^D(H)+lnlog22ρmm+3ln4δ2m\begin{aligned} & E(h) \leqslant \widehat{E}_\rho(h)+\frac{4}{\rho} \Re_m(\mathcal{H})+\sqrt{\frac{\ln \log _2 \frac{2}{\rho}}{m}}+\sqrt{\frac{\ln \frac{2}{\delta}}{2 m}} \\ & E(h) \leqslant \widehat{E}_\rho(h)+\frac{4}{\rho} \widehat{\mathfrak{R}}_D(\mathcal{H})+\sqrt{\frac{\ln _{\log _2 \frac{2}{\rho}}^m}{m}}+3 \sqrt{\frac{\ln \frac{4}{\delta}}{2 m}} \end{aligned}

  由定理 3.7 可知 R^D(H)r2Λ2m\widehat{\mathfrak{R}}_D(\mathcal{H})\leqslant\sqrt{\frac{r^2\Lambda^2}{m}},两边取期望得到,Rm(H)r2Λ2m\mathfrak{R}_m(\mathcal{H})\leqslant\sqrt{\frac{r^2\Lambda^2}{m}}


推论 4.1

  令 H={xwx:wΛ}\mathcal{H}=\{x\mapsto w \cdot x : \lvert w\rvert\leqslant\Lambda\}xr\lVert x\rVert \leqslant r,对于 0<δ<10 < \delta < 1hHh\in\mathcal{H} 和固定的 ρ>0\rho > 0,以至少 1δ1-\delta 的概率有:

E(h)E^ρ(h)+2r2Λ2/ρ2m+ln1δ2mE(h)\leqslant\widehat{E}_{\rho}(h)+2\sqrt{\frac{r^2\Lambda^2/\rho^2}{m}}+\sqrt{\frac{\ln \frac{1}{\delta}}{2 m}}

推论 4.2

  令 H={xwx:wΛ}\mathcal{H}=\{x\mapsto w \cdot x : \lvert w\rvert\leqslant\Lambda\}xr\lVert x\rVert \leqslant r,对于 0<δ<10 < \delta < 1hHh\in\mathcal{H} 和任意的的 ρ(0,1)\rho\in(0,1),以至少 1δ1-\delta 的概率有:

E(h)E^ρ(h)+4r2Λ2/ρ2m+lnlog22ρm+ln2δ2mE(h)\leqslant\widehat{E}_{\rho}(h)+4\sqrt{\frac{r^2\Lambda^2/\rho^2}{m}}+\sqrt{\frac{\ln\log_2\frac{2}{\rho}}{m}}+\sqrt{\frac{\ln \frac{2}{\delta}}{2 m}}

经验风险最小化

定义 4.2

  如果学习算法 L\mathfrak{L} 输出 H\mathcal{H} 中具有最小经验误差的假设 hh,即 E^(h)=minhHE^(h)\hat{E}(h)=\min_{h'\in\mathcal{H}}\widehat{E}(h'),则称 L\mathfrak{L} 为满足经验风险最小化原则的算法

  假设 L\mathfrak{L} 为满足经验风险最小化原则的算法,令 gg 表示 H\mathcal{H} 中具有最小泛化误差的假设,即 E(h)=minhHE^(h)E(h)= \min_{h'\in\mathcal{H}}\widehat{E}(h') 由引理 2.1 可知,

P(E^(g)E(g)ϵ2)2exp(mϵ22)P(\lvert\widehat{E}(g)-E(g)\rvert\geqslant\frac{\epsilon}{2})\leqslant2\exp\left(-\frac{m\epsilon^2}{2}\right)

  由于 δ=δ2,(ln2/δ)2mϵ2\delta'=\frac{\delta}{2},\sqrt{\frac{(\ln2/\delta')}{2m}}\leqslant\frac{\epsilon}{2},即 2exp(mϵ22)δ2\exp\left(-\frac{m\epsilon^2}{2}\right)\leqslant\delta' 以至少 1δ21-\frac{\delta}{2} 的概率有:

E^(g)ϵ2E(g)E^(g)+ϵ2\widehat{E}(g)-\frac{\epsilon}{2}\leqslant E(g)\leqslant\widehat{E}(g)+\frac{\epsilon}{2}

  由定理 4.3 可知,以至少 1δ21-\frac{\delta}{2} 的概率有:

E(h)E^(h)ϵ2\lvert E(h)-\widehat{E}(h) \rvert\leqslant\frac{\epsilon}{2}

  即 E(h)E^(h)+ϵ2E(h)\leqslant\widehat{E}(h)+\frac{\epsilon}{2} (根据经验最小化原则,E^(h)E^(g)\widehat{E}(h)\leqslant\widehat{E}(g)),所以以至少 1δ1-\delta 的概率有:

E(h)E(g)E^(h)+ϵ2(E^(g)+ϵ2)=E^(h)E^(g)+ϵϵ\begin{aligned} E(h)-E(g) & \leqslant \widehat{E}(h)+\frac{\epsilon}{2}-\left(\widehat{E}(g)+\frac{\epsilon}{2}\right) \\ & =\widehat{E}(h)-\widehat{E}(g)+\epsilon \\ & \leqslant \epsilon \end{aligned}

  所以若学习算法 L\mathfrak{L} 输出 H\mathcal{H} 中具有最小经验误差的假设 hh,其泛化误差 E(h)E(h) 以至少 1δ1-\delta 的概率不大于最小泛化误差 E(h)+ϵE(h) +\epsilon

结论

  • 泛化误差边界不取决于维度,而取决于间隔
  • 这需要我们在更高维的特征空间中寻找大间隔的超平面

计算问题

  • 高维特征空间上使用点积是很昂贵的
  • 可以使用核函数来解决

  Orz 快累死了。