Understanding Machine Learning: From Theory to Algorithms的未完成的部分翻译部分

297 阅读7分钟

28 学习理论基本定理的证明


在本章中,我们证明了第6章中的定理6.8。我们提醒读者这个定理的条件,这将贯穿本章:他的一个假设类函数从[@]{0,1},损失函数是0−1损失,并且VCdim(H)=d<VCdim(H)=d<∞。 我们将证明可实现的情况和不可知论的情况的上界和不可知论的情况的下界。可实现情况的下界留作练习。

28.1 不可知论情形的上限

对于上界,我们需要证明存在这样的未知PAC可学习的样本复杂度

mH(ϵ,δ)Cd+ln1/δ)δ2m_H(\epsilon,\delta) \leq C\frac{d+ln(1/\delta)}{\delta^2}

我们将证明稍微宽松一点的界限:

mH(ϵ,δ)Cdlog(d/ϵ)+ln1/δ)ϵ2m_H(\epsilon,\delta) \leq C\frac{dlog(d/\epsilon)+ln(1/\delta)}{\epsilon^2}

(28.1)

定理陈述中更紧密的界限需要一个更复杂的证明,在这个证明中应该使用一种叫做“链接”的技术来更仔细地分析Rademacher复杂度。这超出了本书的范围。 为了证明(28.1)式,只需证明在样本容量下应用ERM即可

m432dϵ2(8dlog(C/d)+2log(4/δ))m\geq4\frac{32d}{\epsilon^2}·(8d·log(C/d)+2log(4/\delta))

产生一个 ϵ\epsilon ,δ-学习者上。我们在定理26.5的基础上证明了这个结果。设(x1, y1),…,(xm, ym)为分类训练集。回想一下SauerShelh引理告诉我们,如果VCdim(H) =d then

A(Cmd)d|A|\leq (\frac{C m}{d})^d

理解机器学习,2014年由剑桥大学出版社出版。个人使用。不是为分布。不发布。请链接www.cs.huji.ac.il/~shais/Unde…

结合lemma26.8,我们得到Rademacher复杂度的界:

R(A)2dlog(em/d)mR(A)≤ \sqrt {{2dlog(em/d)}\over{m}}

利用定理26.5,我们得到,对于每一个 1−δ,其概率至少为 h∈ H

LD(h)LS(h)8dlog(em/d)m+2log(2/δ)m.L_D(h)−L_S(h)≤\sqrt{8dlog(em/d)\over m}+\sqrt{2log(2/δ) \over m }.

重复前面关于负0 - 1损失的论证,并应用并集界,我们得到,对于每一个 1−δ,概率至少为h∈ H,它是成立的

LD(h)LS(h)8dlog(em/d)m+2log(4/δ)m28dlog(em/d)+2log(4/δ)m.L_D(h)−L_S(h)≤\sqrt{8dlog(em/d)\over m}+\sqrt{2log(4/δ) \over m } ≤2\sqrt{{8dlog(em/d) + 2 log(4/δ)}\over m}.

以确保它小于 ϵ\epsilon我们需要

m4[8dlog(m)+8dlog(e/d)+2log(4/δ)]ϵ.m≥4·[8dlog(m) + 8dlog(e/d) + 2 log(4/δ)]\over\epsilon.

使用LemmaA.2、不等式成立的一个充分条件是

m432dϵ2log(64dϵ2)+8ϵ2(8dlog(e/d)+2log(4/δ)).m≥4{32d\over \epsilon_2}·log ({64d\over \epsilon_2} ) + {8\over \epsilon_2}·(8dlog(e/d) + 2 log(4/δ)).

28.2不可知论的下界

在这里,我们证明了存在这样一个不可知的PAC可学习的样本复杂性

mH(ϵ,δ)Cd+ln(1/δ)ϵ2.m_H(\epsilon, δ)≥C{d+ ln(1/δ)\over \epsilon_2}.

我们将分两部分来证明下界。首先,我们要证明 m(ϵ,δ)0.5log(1/(4δ))/ϵ2 m(\epsilon, δ)≥0.5 log(1/(4δ))/\epsilon^2 ,其次我们要证明对于每一个δ≤1/8我们有m(ϵ,δ)8d/ϵ2m(\epsilon, δ)≥8d/\epsilon^2 。这两个边界将结束证明。

28.2.1显示m(ϵ,δ)0.5log(1/(4δ))/2m(\epsilon, δ)≥0.5 log(1/(4δ))/^2

我们首先展示的是ϵ<12\epsilon <1\sqrt2 和任意δ∈(0,1),我们 m(ϵ,δ)0.5log(1/(4δ))/ϵ2m(\epsilon,δ)≥0.5log(1/(4δ))/\epsilon^2 。为了做到这一点,我们展示了m0.5log(1/(4δ))/ϵ2m≤0.5 log(1/(4δ))/\epsilon^2,H不可以习得的。

选择一个被H打碎的例子。也就是说,让我们举一个例子,有h+,hHh_+, h_−∈ H,其中h+(c)=1,h(c)=1h_+(c)=1, h_−(c)=−1。定义两个分布,D+D_+DD_−,使b∈ {±1}得到

D_b({(x, y)}) = \left\{ \begin{aligned} {1+yb\epsilon\over2} &, if x=c \\ 0 & otherwise \\ \end{aligned}. \right

也就是说,所有的分布质量都集中在两个例子(c,1)和(c,−1)上,其中(c, b)的概率是1+bϵ21+b\epsilon\over 2,(c,−b)的概率是.1bϵ21−b\epsilon\over 2

让abe一个任意的算法。任何从dbhas中采样的训练集的形式= (c, y1),…(c,ym)。因此,它由向量y= (y1,…ym)∈{±1}^m^。在接收到训练集后,算法ma返回一个假设:X→{±1}。由于aw .r.t. dbonly的误差依赖于h(c),我们可以把原子吸收看作是从{±1}minto{±1}的映射。因此,我们用a (y)表示{±1}中对应于h(c)预测的值,其中a在接收到训练集后输出的假设= (c, y1),…(ym, c)。

注意,对于我们的任何假设

LDb(h)=1h(c)bϵ2.L_{D_b}(h) = {1−h(c)b\epsilon\over 2}.

特别是,贝叶斯最优假设hb

LDb(A(y))LDb(hb)=1A(y)bϵ21ϵ2=(ϵifA(y)6=botherwise.L_{D_b}(A(y))−L_{D_b}(h_b) = {1−A(y)b\epsilon\over 2}−{1−\epsilon \over2} = ( \epsilon ifA(y)6=b otherwise.

FixA 。对于b∈{±1},Yb={y∈ {0,1}^m^:A(y)6=b}. 该分布Pb over{±1}^m^引出了一个概率。因此,

P[LDb(A(y))LDb(hb)=ϵ]=Db(Yb)=XyPb[y]1[A(y)6=b].P[L_{D_b}(A(y))−L_{D_b}(h_b) =\epsilon] =D_b(Y^b) = X y Pb[y]1[A(y)6=b].

[@][@]。注意对于[@],我们有[@];对于[@],我们有[@]。 因此 [@]

[@][@],这两个值都是一个二项[@]随机变量的值大于m/2的概率。使用[@],这个概率下限是 [@]

这里我们假设[@]。由此可知,[@]那么就存在这样一种情况 [@]

最后一个不等式经过了标准的代数运算。我们的证明到此结束。

28.2.2显示[@]

我们现在要证明给每一个[@]我们有那[@]。允许[@]并注意[@]我们将构造一个分布族,如下所示。首先,[@]是一组被[@]打碎的实例。第二,对于每个向量[@],定义一个[@]例如 [@]

也就是说,根据[@】抽样一个例子,我们首先对一个元素[@]均匀随机抽样,然后设标签为贝比概率[@]或-双概率[@]。

贝叶斯最优预测器对于假设的验证是容易的[@]使[@],其误差为[@]。此外,对于任何其他函数[@],很容易验证 [@]

因此 [@]

接下来,修正一些学习算法。就像在非免费午餐定理的证明中一样 [@]

其中第一个等式由式(28.2)导出。此外,利用[@]的定义,对样本[@]可以先采样[@]让我们简化符号,用[@]表示根据[@]的抽样。因此,式(28.6)的右边等于 [@]

我们现在分两步进行。首先,我们证明在所有的学习算法中,使方程(28.7)最小(也使方程(28.4)最小)的算法[@]是最大似然学习规则,[@]。形式上,对于每一个[@]是集合[@]的多数投票。其次,我们将(28.7)式作为[@]的下界 辅助定理 28.1 其中,式(28.4)为最大似然算法,定义为 [@]

[@]。注意,给定[@],训练集[@]完全确定。因此,我们可以用[@]代替[@]。让我们也[@]。序列[@]。此外,对于任何[@],指定对应于索引的元素,其中[@]和[@]的其余元素。我们有 [@]

当a [@]是[@]的极大者时,括号内的和最小,这就是极大似然规则。为[@]重复同样的论点,我们总结了我们的证明。

[@]对于每一个[@]允许[@]为实例[@]所包含的实例数量。对于最大似然法则,我们有这个量[@]

是一个二项随机变量[@]大于[@]的概率。使用[@],假设[@],我们有这个[@]

我们已经证明了这一点[@]

在上一个不等式中我们用了不等式1 - e - a≤a。由于平方根函数是凹的,我们可以利用Jensen不等式得到上面的下界为[@]

只要[@],这一项大于ρ/4。 总之,我们已经证明了如果[@]那么对于任何算法都存在这样的分布[@]

最后,设[@],注意∆∈0,1。因此,使用[@],我们得到[@]

选择ρ= 8 ?我们得出[@],则概率至少为1/8,则[@]

28.3可实现情况的上界

在这里我们证明了具有样本复杂度的PAC可学习性[@]

我们通过证明形式[@],他可通过ERM规则学习。我们根据[@]的概念来证明这个说法。

定义28.2 ([@]-net) 让[@]是一个域。【@】[@]

【@】[@]

然后,在s ~ Dmwe的选择中,有至少1−δ的概率,这是一个[@]

证明,[@]

是一组不是网的网。我们需要约束[@]

权利要求1 [@] 证明权利要求1:因为andtare是独立选择的,我们可以写[@]

请注意,[@]意味着[@]因此[@],这给了[@]

解决了些[@],然后则[@]然后则∃hs使这样【@】的一个充分条件是【@】。因此,每当【@】我们有[@]

但是,既然我们现在假设[@],我们知道[@].因此,[@]是一个二项式随机变量,其参数ρ(一次尝试成功的概率)和m(尝试次数)。切尔诺夫不等式意味着 [@] [@]

综合上述所有,我们得出索赔1的证明。

要求2(均衡): [@] 权利要求2的证明:为了简化符号,设[@]。利用[@]的定义,我们得到 [@] 现在,让我们用[@]定义不同假设[@]的有效个数,即[@]。由此可见, [@]

允许【@】对于任何[@]和[@]定义[@]。因为a的元素被选为【@】,所以对于任意[@]和[@]函数我们都有[@]。因为这对于任意[@]也适用于从[@]随机选取的[@]的期望。特别地,它适用于函数[@]

现在,修复[@]。那么,[@]是当从至少有α红球的包中选择[@]时,我们永远不会选择一个红球的概率。这个概率是最多的[@]

因此我们得到了这个 [@]

利用生长函数的定义,给出了权利要求2的证明。补全证明:根据绍尔引理,[@]。把这个和两个声明结合起来,我们就得到了

[@]

我们希望不等式的右边最多是δ;也就是说, [@]

重新安排,我们得到要求 [@]

使用LemmaA。2、前一个条件成立的充分条件是

m16dϵlog(8dϵ)+8dϵ(dlog(2e/d)+log(2/δ)m≥{16d\over\epsilon} log({8d\over \epsilon}) + {8d\over \epsilon}(dlog(2e/d) +log(2/δ)

这个的一个充分条件是

m16dϵlog(8dϵ)+16dϵ(dlog(2e/d)+12log(2/δ)=16dϵ(log(ϵ8d2edϵ))+8ϵlog(2/δ)=8ϵ(2dlogϵ(16eϵ)+log(2δ)).m≥{16d\over\epsilon} log({8d\over \epsilon}) + {16d\over \epsilon}(dlog(2e/d) +{1\over 2}log(2/δ) = {16d\over \epsilon} (log ({\epsilon8d2e\over d\epsilon})) +{ 8\over \epsilon }log(2/δ) = {8\over \epsilon}( 2dlog \epsilon({16e\over \epsilon}) + log({2\over δ})) .

这就是我们的证明。

28.3.1来自哪里?- net到PAC的易学性

定理 28.4:假设类。设H是x上的分布,VCdim(H) =d是一个目标假设。 Fixϵδ(0,1)Fix\epsilon, δ∈(0,1),令mbe定义如定理28.3。然后,在mi.i.d的选择中,至少有1−δ的概率。我们已经知道,任何ERM假设的真实误差最多为?

证明定义Hc=cΔh:hH,cΔh=(h)¸(c\h)H^c={c\Delta h:h∈ H}, c\Delta h= (h\c)∪(c\h)[@]这是很容易证实的,如果某一A⊂ X被赫打碎,那么它也被H打碎,反之亦然。因此,VCdim(H)=VCdim(Hc) VCdim(H) = VCdim(H^c)。因此,利用定理28.3,我们知道,在至少1−δ的概率下,样品是ϵnetforHc\epsilon-net forH^c。注意[@]。因此,对于h∈ H任意LD(h)ϵL_D(h)≥\epsilon我们有(hΔ)S>0|(h\Delta)∩S|>0,这意味着它不可能是一个ERM假说,这就总结了我们的证明。