第28章

93 阅读3分钟

28学习理论基本定理的证明

在本章中,我们证明了第6章中的定理6.8。我们提醒读者这个定理的条件,这将贯穿本章:H\mathcal{H}一个假设的函数类来自于一个定义域X{0,1}\mathcal{X}\in\{0,1\}损失函数是0-1损失且VCdim(H\mathcal{H})=d\mathcal{d}<\infty
我们将证明可实现的情况和不可知论的情况的上界和不可知论的情况的下界。可实现情况的下界留作练习。

28.1不可知论情形的上限

对于上界,我们需要证明存在这样的未知PAC可学习的样本复杂度

mH(ϵ,δ)Cd+ln(1/δ)ϵ2.m_{\mathcal H}(\epsilon,\delta)\le C\frac{d+\ln(1/\delta)}{\epsilon^2}.

我们将证明稍微宽松一点的界限

mH(ϵ,δ)Cdlog(d/ϵ)+ln(1/δ)ϵ2m_{\mathcal H}(\epsilon,\delta)\le C\frac{d\log(d/\epsilon)+\ln(1/\delta)}{\epsilon^2}

定理陈述中更紧密的界限需要一个更复杂的证明,在这个证明中应该使用一种叫做“链接”的技术来更仔细地分析Rademacher复杂度。这超出了本书的范围。为了证明(28.1)式,只需证明在样本容量下应用ERM即可

m432dϵ2.log(64dϵ2)+8ϵ2.(8dlog(e/d)+2log(4/δ))m\geqslant4 \frac{32d}{\epsilon^2}.\log(\frac{64d}{\epsilon^2})+\frac{8}{\epsilon^2}.(8d\log(e/d)+2\log(4/\delta))

产生一个ϵ\epsilon δ\delta学习者上。我们在定理26.5的基础上证明了这个结果。设(x1x_1, y1y_1),…,(xmx_m, ymy_m)为分类训练集。回想一下SauerShelah引理告诉我们,如果VCdim(H\mathcal{H}) =dthen

(h(x1)....h(xm)):hH(emd)d.|{(h(x_1)....h(x_m)):h\in\mathcal{H}}|\le(\frac{em}{d})^d.

DenoteA=(1h(x1)y1.....1h(xm)ym):hHDenoteA=({1_{|h(x_1)\neq y_1}.....1_{|h(x_m)\neq y_m}}):h\in\mathcal{H}这显然意味着

A(emd)d|A|\le(\frac{em}{d})^d

理解机器学习@2014年由剑桥大学出版社出版。个人使用。不是为分布。不发布。请链接到www.cs.huji.ac.il/~shais/Unde…
结合lemma26.8,我们得到Rademacher复杂度的下界

R(A)2dlog(em/d)mR(A)\le\sqrt\frac{2d\log(em/d)}{m}

利用定理26.5,我们得到,对于每一个hH\in\mathcal{H},其概率至少为1−δ\delta

LD(h)Ls(h)8dlog(em/d)m+2log(4/δ)mL_D(h)-L_s(h)\le\sqrt\frac{8d\log(em/d)}{m}+\sqrt\frac{2\log(4/\delta)}{m}

重复前面关于负0 - 1损失的论证,并应用并集界,我们得到,对于每一个hH\in\mathcal{H},概率至少为1 - δ\delta,它是成立的

LD(h)Ls(h)8dlog(em/d)m+2log(4/δ)m |L_D(h)-L_s(h)|\le\sqrt\frac{8d\log(em/d)} {m}+\sqrt\frac{2\log(4/\delta)}{m}
28dlogem/d+2log(4/δ)m\le2\sqrt\frac{8d\log(em/d)+2\log(4/\delta)}{m}

以确保它小于ϵ\epsilon我们需要

R(A)2dlog(em/d)mR(A)\le\sqrt\frac{2d\log(em/d)}{m}

利用定理26.5,我们得到,对于每一个hH\in\mathcal{H},我们有至少1−δ\delta的概率

LD(hLs(h))8dlog(em/d)m+2log(2/δ)mL_D(h-L_s(h))\le\sqrt\frac{8d\log(em/d)}{m}+\sqrt\frac{2\log(2/\delta)}{m}

重复前面关于负0 - 1损失的论证,并应用并集界,我们得到,对于每一个hH\in\mathcal{H},概率至少为1 - δ\delta,它是成立的

以确保它小于ϵ\epsilon我们需要

m4ϵ2.(8dlog(em/d))+2log(4/δ)m\geqslant\frac{4}{\epsilon^2}.(8d\log(em/d))+2\log(4/\delta)

使用LemmaA.2、不等式成立的一个充分条件是

m432dϵ2.log(64dϵ2)+8ϵ2.(8dlog(e/d))+2log(4/δ).m\geqslant4\frac{32d}{\epsilon^2}.\log(\frac{64d}{\epsilon^2})+\frac{8}{\epsilon^2}.(8d\log(e/d))+2\log(4/\delta).

28.2不可知论的下界

在这里,我们证明了C的存在,使得H\mathcal{H}是不可知的PAC可学习的样本复杂度

mH(ϵ,δ)Cd+ln(1/δ)ϵ2m_\mathcal{H}(\epsilon,\delta)\geqslant C\frac{d+\ln(1/\delta)}{\epsilon^2}

我们将分两部分来证明下界。首先,我们要证明m (ϵ,δ\epsilon,\delta)\geqslant0.5 log\log(1/(4δ\delta)ϵ2\epsilon^2,其次我们要证明对于每一个δ\delta\geqslant1/8我们有m(ϵ,δ\epsilon,\delta)8d/ϵ2\geqslant8d/\epsilon^2。这两个边界将结束证明。

28.2.1显示m(ϵ,δ)0.5log(1/(4δ)/ϵ2)m(\epsilon,\delta)\geqslant0.5\log(1/(4\delta)/\epsilon^2)

我们首先展示的是ϵ<1/2\epsilon<1/\sqrt2和任意δ(0,1)\delta\in(0,1)我们有m(ϵ,δ)0.5log(1/4δ)/ϵ2(\epsilon,\delta)\geqslant0.5\log(1/4\delta)/\epsilon^2为了做到这一点,我们展示了m0.5log(1/(4δ))/ϵ2H\le0.5 \log(1/(4\delta))/\epsilon^2\mathcal H是不可学的。
选一个被H\mathcal{H}打破的例子。也就是说,假设C是这样一个例子,即h+hHh_+, h_−\in\mathcal{H},对于h+(c)=1h_+(c) = 1h(c)=1h_−(c) =−1。定义两个分布,D+D_+DD_−,使b\in{±1}有

Db(x,y)=D_{b({x,y})}=

也就是说,所有的分布质量集中在两个例子(c,1)和(c,−1),其中(c, b)的概率是1+bϵ2\frac{1+b\epsilon}{2}和(c,−b)的概率是1bϵ2\frac{1-b\epsilon}{2}.
设A是任意算法。任何从Db中采样的训练集形式为S=(c,y1)ym,(c) (c, y_1),…y_m, (c)。因此,它由向量y=(y1ym)±1y= (y_1,…y_m)\in{{\pm1}}。在接收到训练集S时,算法A返回假设h:X±1\mathcal{X}\longrightarrow{\pm1}。由于A w.r.t.Db D_b的误差只依赖于h(c),我们可以把A看作是从{±\pm1}m到{±\pm1}的映射。因此,我们用A(y)表示{±\pm1}中对应于h(c)预测的值,其中h是A在接收到训练集S = (c, y1y_1)时输出的假设,…(c,ymy_m)。
注意对于任何假设h

LDb(h)=1h(c)bϵ2L_{D_b}(h)=\frac{1-h(c)b\epsilon}{2}

特别地,贝叶斯最优假设是hbh_b

LDb(A(y))LDb=1h(c)bϵ2.L_{D_b}(A(y))-L_{D_b}=\frac{1-h(c)b\epsilon}{2}.

Fix A对于b±1b\in{\pm1},让YbY^b= {y(0,1)m:A(y)b{y\in{(0,1)}^m:A(y)\neq b }。}DbD_b的分布引出Pb(±1)mP_b {(\pm1)}^m的概率。因此,

PLDb(A(y))LDb(hb)=ϵ=Db(Yb)=yPb[y]1A(y)b\mathbb{P}|L_{D_b}(A(y))-L_{D_b}(h_b)=\epsilon|=D_b(Y^b)=\sum_{y}P_b[y]1_{|A(y)\neq b|}

表示N+N^+={y:i:yi=1m/2y:|{i:yi= 1}|\geqslant m/2}, NN^−={±1m\pm1^m} N+N^+。注意对于任意yN+y\in N^+,我们有P+[y]\geqslantP−[y]对于任意yNy\in N^-,我们有P−[y]\geqslantP+[y]。
因此

maxb±1PLDb(A(y))LDb(hb)=ϵ \mathop{max}\limits_{b\in{\pm1}}\mathbb{P}|L_{D_b}(A(y))-L_{D_b}(h_b)=\epsilon|