2 PAC学习框架 (page 23 24)

220 阅读2分钟

定理2.2 学习界-有限H,不一致情形

HH 为有限假设集。然后,对于任何 δ>0δ>0 ,概率至少为 1δ1−δ 、 以下不等式成立:

hH,R(h)R^(r)+logH+log2δ2m.(2.20)\forall h\in H,R(h)\le \widehat R(r)+\sqrt {\frac{log|H|+log\frac{2}{δ}}{2m}}.(2.20)

证明h1hhh_1,…,h_{|h|}HH 的元素。使用联合边界并将推论2.2应用于每个假设得出:

Pr[hHR^(h)R(h)>ϵ]=Pr[(R^(h1)R(h1)>ϵ)...(R^(hH)R(hH)>ϵ)]hHPr[R^(h)R(h)>ϵ]2Hexp(2mϵ2).\begin{aligned} &Pr\Big[h\in H|\widehat R(h)-R(h)|>\epsilon \Big]\\ &=Pr\Big[(|\widehat R(h_1)-R(h_1)|>\epsilon)\vee...\vee (|\widehat R(h_{|H|})-R(h_{|H|})|>\epsilon)\Big]\\ &\le\sum_{h\in H}Pr[|\widehat R(h)-R(h)|>\epsilon]\\ &\le 2|H|exp(-2m\epsilon^2). \end{aligned}
  • 将右侧设置为等于δδ即完成验证
    因此,对于有限假设集 HH
R(h)R^(h)+O(log2Hm).R(h)\le\widehat R(h)+O\bigg(\sqrt\frac{log_2|H|}{m}\bigg).

如前所述,log2Hlog_2 | H |可以解释为表示 HH 所需的位数。这里可以做一些类似于在一致情况下对泛化边界所做的评论:更大的样本大小 mm 保证更好的泛化,并且边界随着 H|H| 增加而增加,但只是对数增加。但是,这里的界限是 log2 Hm\frac{log2 |H|}{m} 的一个不太有利的函数;它随该项的平方根而变化。这不是一个很小的代价:对于固定的 H|H|,要获得与一致情况相同的保证,需要二次更大的标记样本。

注意,界限表明在减少经验误差和控制假设集的大小之间寻求权衡:较大的假设集会受到第二项的惩罚,但可能有助于减少经验误差,即第一项。但是,对于类似的经验误差,它建议使用较小的假设集。这可以看作是以奥卡姆的神学家威廉命名的所谓奥卡姆剃刀原理的一个例子:多元性不应该在没有必要的情况下被假定,也可以重新表述为,最简单的解释是最好的。在这种情况下,它可以表示为:在所有其他条件相同的情况下,假设集越简单(越小)越好。

2.4 概论

在这一节中,我们将考虑与学习场景相关的几个重要问题,为了简单起见,我们省略了前面章节的讨论。

2.4.1 确定性情景与随机情景

在监督学习的最一般场景中,分布DD定义在X×YX×Y上,训练数据是一个根据DD以i.i.d.标记的样本SS:

S=((x1,y1)...(xm,ym)).S=((x_1,y_1),... ,(x_m,y_m)).

学习问题是找到一个泛化误差很小的假设 hHh∈ H

R(h)=Pr(x,y)D[h(x)y]=E(x,y)D[1h(x)y].R(h)=\underset {(x,y)\sim D}{Pr}[h(x)\neq y]=\underset {(x,y)\sim D}{E}[1_{h(x)\neq y}].

这种更一般的情况称为随机情况。在此设置中,输出标签是输入的概率函数。随机场景捕获了许多实际问题,其中输入点的标签不是唯一的。例如,如果我们试图根据一个人的身高和体重形成的输入对来预测性别,那么标签通常不会是唯一的。对于大多数配对,男性和女性都是可能的性别。对于每个固定对,都有一个标签为男性的概率分布。
PAC学习框架对这种设置的自然扩展被称为不可知的PAC学习。