28学习理论基本定理的证明

在本章中，我们证明了第6章中的定理6.8。我们提醒读者这个定理的条件，这将贯穿本章: $\mathcal{H}$ 一个假设的函数类来自于一个定义域 $\mathcal{X}\in\{0,1\}$ 损失函数是0-1损失且VCdim( $\mathcal{H}$ )= $\mathcal{d}$ < $\infty$
我们将证明可实现的情况和不可知论的情况的上界和不可知论的情况的下界。可实现情况的下界留作练习。

28.1不可知论情形的上限

对于上界，我们需要证明存在这样的未知PAC可学习的样本复杂度

m_{\mathcal H}(\epsilon,\delta)\le C\frac{d+\ln(1/\delta)}{\epsilon^2}.

我们将证明稍微宽松一点的界限

m_{\mathcal H}(\epsilon,\delta)\le C\frac{d\log(d/\epsilon)+\ln(1/\delta)}{\epsilon^2}

定理陈述中更紧密的界限需要一个更复杂的证明，在这个证明中应该使用一种叫做“链接”的技术来更仔细地分析Rademacher复杂度。这超出了本书的范围。为了证明(28.1)式，只需证明在样本容量下应用ERM即可

m\geqslant4 \frac{32d}{\epsilon^2}.\log(\frac{64d}{\epsilon^2})+\frac{8}{\epsilon^2}.(8d\log(e/d)+2\log(4/\delta))

产生一个 $\epsilon$ $\delta$ 学习者上。我们在定理26.5的基础上证明了这个结果。设( $x_1$ , $y_1$ )，…，( $x_m$ , $y_m$ )为分类训练集。回想一下SauerShelah引理告诉我们，如果VCdim( $\mathcal{H}$ ) =dthen

|{(h(x_1)....h(x_m)):h\in\mathcal{H}}|\le(\frac{em}{d})^d.

$DenoteA=({1_{|h(x_1)\neq y_1}.....1_{|h(x_m)\neq y_m}}):h\in\mathcal{H}$ 这显然意味着

|A|\le(\frac{em}{d})^d

理解机器学习@2014年由剑桥大学出版社出版。个人使用。不是为分布。不发布。请链接到www.cs.huji.ac.il/~shais/Unde…
结合lemma26.8，我们得到Rademacher复杂度的下界

R(A)\le\sqrt\frac{2d\log(em/d)}{m}

利用定理26.5，我们得到，对于每一个h $\in\mathcal{H}$ ，其概率至少为1− $\delta$

L_D(h)-L_s(h)\le\sqrt\frac{8d\log(em/d)}{m}+\sqrt\frac{2\log(4/\delta)}{m}

重复前面关于负0 - 1损失的论证，并应用并集界，我们得到，对于每一个h $\in\mathcal{H}$ ，概率至少为1 - $\delta$ ，它是成立的

|L_D(h)-L_s(h)|\le\sqrt\frac{8d\log(em/d)} {m}+\sqrt\frac{2\log(4/\delta)}{m}

\le2\sqrt\frac{8d\log（em/d）+2\log(4/\delta)}{m}

以确保它小于 $\epsilon$ 我们需要

R(A)\le\sqrt\frac{2d\log(em/d)}{m}

利用定理26.5，我们得到，对于每一个h $\in\mathcal{H}$ ，我们有至少1− $\delta$ 的概率

L_D(h-L_s(h))\le\sqrt\frac{8d\log(em/d)}{m}+\sqrt\frac{2\log(2/\delta)}{m}

重复前面关于负0 - 1损失的论证，并应用并集界，我们得到，对于每一个h $\in\mathcal{H}$ ，概率至少为1 - $\delta$ ，它是成立的

以确保它小于 $\epsilon$ 我们需要

m\geqslant\frac{4}{\epsilon^2}.(8d\log(em/d))+2\log(4/\delta)

使用LemmaA.2、不等式成立的一个充分条件是

m\geqslant4\frac{32d}{\epsilon^2}.\log(\frac{64d}{\epsilon^2})+\frac{8}{\epsilon^2}.(8d\log(e/d))+2\log(4/\delta).

28.2不可知论的下界

在这里，我们证明了C的存在，使得 $\mathcal{H}$ 是不可知的PAC可学习的样本复杂度

m_\mathcal{H}(\epsilon,\delta)\geqslant C\frac{d+\ln(1/\delta)}{\epsilon^2}

我们将分两部分来证明下界。首先，我们要证明m ( $\epsilon,\delta$ ) $\geqslant$ 0.5 $\log$ (1/(4 $\delta$ ) $\epsilon^2$ ，其次我们要证明对于每一个 $\delta\geqslant$ 1/8我们有m( $\epsilon,\delta$ ) $\geqslant8d/\epsilon^2$ 。这两个边界将结束证明。

28.2.1显示 $m(\epsilon,\delta)\geqslant0.5\log(1/(4\delta)/\epsilon^2)$

我们首先展示的是 $\epsilon<1/\sqrt2$ 和任意 $\delta\in(0,1)$ 我们有m $(\epsilon,\delta)\geqslant0.5\log(1/4\delta)/\epsilon^2$ 为了做到这一点，我们展示了m $\le0.5 \log(1/(4\delta))/\epsilon^2\mathcal H$ 是不可学的。
选一个被 $\mathcal{H}$ 打破的例子。也就是说，假设C是这样一个例子，即 $h_+， h_−\in\mathcal{H}$ ，对于 $h_+(c) = 1$ 和 $h_−(c) =−1$ 。定义两个分布， $D_+$ 和 $D_−$ ，使b $\in$ {±1}有

D_{b({x,y})}=

也就是说，所有的分布质量集中在两个例子(c,1)和(c，−1)，其中(c, b)的概率是 $\frac{1+b\epsilon}{2}$ 和(c，−b)的概率是 $\frac{1-b\epsilon}{2}$ .
设A是任意算法。任何从Db中采样的训练集形式为S= $(c, y_1)，…y_m, (c)$ 。因此，它由向量 $y= (y_1，…y_m)\in{{\pm1}}$ 。在接收到训练集S时，算法A返回假设h: $\mathcal{X}\longrightarrow{\pm1}$ 。由于A w.r.t. $D_b$ 的误差只依赖于h(c)，我们可以把A看作是从{ $\pm$ 1}m到{ $\pm$ 1}的映射。因此，我们用A(y)表示{ $\pm$ 1}中对应于h(c)预测的值，其中h是A在接收到训练集S = (c, $y_1$ )时输出的假设，…(c, $y_m$ )。
注意对于任何假设h

L_{D_b}(h)=\frac{1-h(c)b\epsilon}{2}

特别地，贝叶斯最优假设是 $h_b$ 和

L_{D_b}(A(y))-L_{D_b}=\frac{1-h(c)b\epsilon}{2}.

Fix A对于 $b\in{\pm1}$ ,让 $Y^b$ = { ${y\in{(0,1)}^m:A(y)\neq b }。$ } $D_b$ 的分布引出 $P_b {(\pm1)}^m$ 的概率。因此,

\mathbb{P}|L_{D_b}(A(y))-L_{D_b}(h_b)=\epsilon|=D_b(Y^b)=\sum_{y}P_b[y]1_{|A(y)\neq b|}

表示 $N^+$ ={ $y:|{i:yi= 1}|\geqslant m/2$ }， $N^−$ ={ $\pm1^m$ } $N^+$ 。注意对于任意 $y\in N^+$ ，我们有P+[y] $\geqslant$ P−[y]对于任意 $y\in N^-$ ，我们有P−[y] $\geqslant$ P+[y]。
因此

\mathop{max}\limits_{b\in{\pm1}}\mathbb{P}|L_{D_b}(A(y))-L_{D_b}(h_b)=\epsilon|

第28章

28学习理论基本定理的证明

28.1不可知论情形的上限

28.2不可知论的下界

28.2.1显示m(ϵ,δ)⩾0.5log⁡(1/(4δ)/ϵ2)m(\epsilon,\delta)\geqslant0.5\log(1/(4\delta)/\epsilon^2)m(ϵ,δ)⩾0.5log(1/(4δ)/ϵ2)

28.2.1显示 $m(\epsilon,\delta)\geqslant0.5\log(1/(4\delta)/\epsilon^2)$