2 PAC学习框架 (page 17 18)

341 阅读2分钟

2.2 有限假设集的保证 —— 一致情况

在我们检查的轴对齐矩形的例子中,算法返回的假设 hSh_S 总是一致的,即它在训练样本 SS 上不承认错误。 在本节中,我们提出了一个通用的样本复杂度界限,或等效地,一个泛化界,对于一致的假设,在基数H|H|的情况下的假设集是有限的。由于我们考虑一致的假设,我们将假设目标概念 cc 在 HH 中。

定理2.1学习边界——有限H,一致情况

设 HH 是从 XX 到 YY 映射的有限函数集。设 AA 是一个算法,对于任何目标概念 c  Hc ∈ H 和 i.i.d.样本 SS 返回一个一致的假设 hS :R^(hS) = 0h_S :\widehat R(h_S) = 0。那么,对于任何 ϵ,δ > 0\epsilon,δ > 0,不等式 PrSDm[R(hS)  ϵ]  1δ\underset {S∼D_m}{Pr}[R(h_S) ≤ \epsilon] ≥ 1−δ 成立,如果

m1ϵ(logH+log1δ).(2.8)m\ge\frac{1}{\epsilon}\bigg(log|H|+log\frac{1}{δ}\bigg).(2.8)

该样本复杂度结果允许以下等效陈述作为泛化界:对于任何 ϵδ > 0\epsilon,δ > 0,概率至少为 1 − δ,

R(hs)1m(logH+log1δ).(2.9)R(h_s)\leq \frac{1}{m}\bigg(log|H|+log\frac{1}{δ}\bigg).(2.9)

证明 固定一个ϵ>0\epsilon>0,我们不知道算法A选择了哪个一致假设hS  Hh_S ∈ H。这个假设进一步依赖于训练样本SS。因此,我们需要给出一个一致的收敛界,即对所有一致假设的集合成立,其中更重要的是包括 hSh_S。因此,我们将限制某些 h  Hh ∈ H 一致且误差大于 ϵ\epsilon 的概率:

Pr[hH:R^(h)=0R(h)>ϵ]=Pr[(h1H,R^(h1)=0R(h1)>ϵ)(h2H,R^(h2)=0R(h2)>ϵ)...]hHPr[R^(h)=0R(h)>ϵ](联合约束)hHPr[R^(h)=0R(h)>ϵ](条件概率的定义)\begin{aligned} & \quad Pr[\exists h\in H:\widehat R(h)=0\land R(h)>\epsilon]\\ &=Pr[(h_1\in H,\widehat R(h_1)=0\land R(h_1)>\epsilon)\lor (h_2\in H,\widehat R(h_2)=0\land R(h_2)>\epsilon)\lor ...]\\ &\le \sum_{h\in H}Pr[\widehat R(h)=0\land R(h)>\epsilon] \quad\quad\quad\quad\quad\quad(联合约束)\\ &\le \sum_{h\in H}Pr[\widehat R(h)=0 | R(h)>\epsilon]\quad\quad\quad\quad\quad\quad\quad(条件概率的定义) \end{aligned}

现在,考虑任何假设hHh\in H,其中R(h)>ϵR(h)>\epsilon.然后,hh的概率在以i.i.d.绘制的训练样本SS上一致,即它在SS中的任何点都没有误差,可以定义界限为:

Pr[R^(h)=0R(h)>ϵ](1ϵ)m.Pr[\widehat R(h)=0|R(h)>\epsilon]\le(1-\epsilon)^m.

前面的不等式意味着

Pr[hH:R^(h)=0R(h)>ϵ]H(1ϵ)m.Pr[\exists h\in H:\widehat R(h)=0\land R(h)>\epsilon]\le |H|(1-\epsilon)^m.
  • 将右侧设置为等于 δ 并求解 ε 得出证明。

该定理表明,当假设集 HH 有限时,一致算法 AA 是 PAC 学习算法,因为(2.8)给出的样本复杂度由 1/ϵ1/\epsilon 和 1/δ1/δ 中的多项式支配。如(2.9)所示,一致假设的泛化误差的上限是以样本大小 mm 的函数而减小的项。这是一个普遍的事实:正如预期的那样,学习算法受益于更大的标记训练样本。然而,由该定理保证的 O(1/m)O(1/m) 的下降率是特别有利的。
提出一致算法的代价是使用包含目标概念的更大的假设集 HH。当然,上限(2.9)随着H|H|而增加。然而,这种依赖性只是对数的。请注意术语 log Hlog |H|,或相关术语 log2 Hlog_2 |H|与它相差一个常数因子,可以解释为表示 HH 所需的位数。因此,该定理的泛化保证由该位数的比、log2 Hlog_2 |H| 和样本大小mm控制。