28学习理论基本定理的证明
在本章中,我们证明了第6章中的定理6.8。我们提醒读者这个定理的条件,这将贯穿本章:H一个假设的函数类来自于一个定义域X∈{0,1}损失函数是0-1损失且VCdim(H)=d<∞
我们将证明可实现的情况和不可知论的情况的上界和不可知论的情况的下界。可实现情况的下界留作练习。
28.1不可知论情形的上限
对于上界,我们需要证明存在这样的未知PAC可学习的样本复杂度
mH(ϵ,δ)≤Cϵ2d+ln(1/δ).
我们将证明稍微宽松一点的界限
mH(ϵ,δ)≤Cϵ2dlog(d/ϵ)+ln(1/δ)
定理陈述中更紧密的界限需要一个更复杂的证明,在这个证明中应该使用一种叫做“链接”的技术来更仔细地分析Rademacher复杂度。这超出了本书的范围。为了证明(28.1)式,只需证明在样本容量下应用ERM即可
m⩾4ϵ232d.log(ϵ264d)+ϵ28.(8dlog(e/d)+2log(4/δ))
产生一个ϵ δ学习者上。我们在定理26.5的基础上证明了这个结果。设(x1, y1),…,(xm, ym)为分类训练集。回想一下SauerShelah引理告诉我们,如果VCdim(H) =dthen
∣(h(x1)....h(xm)):h∈H∣≤(dem)d.
DenoteA=(1∣h(x1)=y1.....1∣h(xm)=ym):h∈H这显然意味着
∣A∣≤(dem)d
理解机器学习@2014年由剑桥大学出版社出版。个人使用。不是为分布。不发布。请链接到www.cs.huji.ac.il/~shais/Unde…
结合lemma26.8,我们得到Rademacher复杂度的下界
R(A)≤m2dlog(em/d)
利用定理26.5,我们得到,对于每一个h∈H,其概率至少为1−δ
LD(h)−Ls(h)≤m8dlog(em/d)+m2log(4/δ)
重复前面关于负0 - 1损失的论证,并应用并集界,我们得到,对于每一个h∈H,概率至少为1 - δ,它是成立的
∣LD(h)−Ls(h)∣≤m8dlog(em/d)+m2log(4/δ)
≤2m8dlog(em/d)+2log(4/δ)
以确保它小于ϵ我们需要
R(A)≤m2dlog(em/d)
利用定理26.5,我们得到,对于每一个h∈H,我们有至少1−δ的概率
LD(h−Ls(h))≤m8dlog(em/d)+m2log(2/δ)
重复前面关于负0 - 1损失的论证,并应用并集界,我们得到,对于每一个h∈H,概率至少为1 - δ,它是成立的
以确保它小于ϵ我们需要
m⩾ϵ24.(8dlog(em/d))+2log(4/δ)
使用LemmaA.2、不等式成立的一个充分条件是
m⩾4ϵ232d.log(ϵ264d)+ϵ28.(8dlog(e/d))+2log(4/δ).
28.2不可知论的下界
在这里,我们证明了C的存在,使得H是不可知的PAC可学习的样本复杂度
mH(ϵ,δ)⩾Cϵ2d+ln(1/δ)
我们将分两部分来证明下界。首先,我们要证明m (ϵ,δ)⩾0.5 log(1/(4δ)ϵ2,其次我们要证明对于每一个δ⩾1/8我们有m(ϵ,δ)⩾8d/ϵ2。这两个边界将结束证明。
28.2.1显示m(ϵ,δ)⩾0.5log(1/(4δ)/ϵ2)
我们首先展示的是ϵ<1/2和任意δ∈(0,1)我们有m(ϵ,δ)⩾0.5log(1/4δ)/ϵ2为了做到这一点,我们展示了m≤0.5log(1/(4δ))/ϵ2H是不可学的。
选一个被H打破的例子。也就是说,假设C是这样一个例子,即h+,h−∈H,对于h+(c)=1和h−(c)=−1。定义两个分布,D+和D−,使b∈{±1}有
Db(x,y)=
也就是说,所有的分布质量集中在两个例子(c,1)和(c,−1),其中(c, b)的概率是21+bϵ和(c,−b)的概率是21−bϵ.
设A是任意算法。任何从Db中采样的训练集形式为S=(c,y1),…ym,(c)。因此,它由向量y=(y1,…ym)∈±1。在接收到训练集S时,算法A返回假设h:X⟶±1。由于A w.r.t.Db的误差只依赖于h(c),我们可以把A看作是从{±1}m到{±1}的映射。因此,我们用A(y)表示{±1}中对应于h(c)预测的值,其中h是A在接收到训练集S = (c, y1)时输出的假设,…(c,ym)。
注意对于任何假设h
LDb(h)=21−h(c)bϵ
特别地,贝叶斯最优假设是hb和
LDb(A(y))−LDb=21−h(c)bϵ.
Fix A对于b∈±1,让Yb= {y∈(0,1)m:A(y)=b。}Db的分布引出Pb(±1)m的概率。因此,
P∣LDb(A(y))−LDb(hb)=ϵ∣=Db(Yb)=y∑Pb[y]1∣A(y)=b∣
表示N+={y:∣i:yi=1∣⩾m/2}, N−={±1m} N+。注意对于任意y∈N+,我们有P+[y]⩾P−[y]对于任意y∈N−,我们有P−[y]⩾P+[y]。
因此
b∈±1maxP∣LDb(A(y))−LDb(hb)=ϵ∣