2 PAC学习框架 (page 21 22)

488 阅读2分钟

2.3 有限假设集的保证——不一致情形

在最一般的情况下,H 中可能没有与标记训练样本一致的假设。这实际上是实践中的典型案例,其中学习问题可能有些困难,或者概念类比学习算法使用的假设集更复杂。然而,在训练样本上具有少量错误的不一致假设可能是有用的,并且正如我们将看到的,可以从某些假设下的有利保证中受益。本节为这种不一致的情况和有限的假设集提供了学习保证。 为了在这种更一般的环境中获得学习保证,我们将使用 Hoeffding 不等式(定理 D.1)或以下推论,它涉及单个假设的泛化误差和经验误差。

推论2.1

固定 ϵ > 0\epsilon > 0 并让 SS 表示一个 i.i.d.大小为 mm 的样本。然后,对于任何假设 hX  {0,1}h:X → \{0,1\},以下不等式成立:

PrSDm[R^(h)R(h)ϵ]exp(2mϵ2)(2.14)PrSDm[R^(h)R(h)ϵ]exp(2mϵ2).(2.15)\begin{aligned} \underset {S\sim D^m}{Pr}[\widehat R(h)-R(h)\ge\epsilon]&\le exp(-2m\epsilon ^2)(2.14)\\ \underset {S\sim D^m}{Pr}[\widehat R(h)-R(h)\le -\epsilon]&\le exp(-2m\epsilon ^2).(2.15)\\ \end{aligned}

根据并集界限,这意味着以下两侧不等式:

PrSDm[R^(h)R(h)ϵ]2exp(2mϵ2).(2.16)\underset {S\sim D^m}{Pr}[\widehat R(h)-R(h)\ge\epsilon]\le 2exp(-2m\epsilon ^2).(2.16)

证明 结果紧跟定理D.1。 将 (2.16) 的右侧设置为等于 δδ 并求解 ϵ\epsilon 立即为单个假设产生以下界限。

推论 2.2 泛化界——单一假设

固定一个假设 hX  {0,1}h:X → \{0,1\}。然后,对于任何 δ > 0δ > 0,以下不等式成立的概率至少为 1  δ 1 − δ

R(h)R^(h)+log2δ2m.(2.17)R(h)\le \widehat R(h)+\sqrt{\frac{log\frac{2}{δ}}{2m}}.(2.17)

下面的例子在一个简单的例子中说明了这个推论。

示例2.6 抛硬币

想象一下,抛一枚有偏向的硬币,正面朝上的概率为 pp,让我们的假设成为总是猜测正面的那个。那么真实错误率是 R(h) = pR(h) = p 和经验错误率 R^(h)=p^\widehat R(h)=\widehat p,其中 p^\widehat p 是基于 i.i.d 抽取的训练样本的正面正面概率。因此,推论 2.2 以至少 1  δ1 − δ 的概率保证。

pp^log2δ2m.(2.18)|p-\widehat p|\le\sqrt{\frac{log\frac{2}{δ}}{2m}}.(2.18)

因此,如果我们选择 δ = 0.02 δ = 0.02 并使用大小为 500500 的样本,概率至少为 98%98\%,则 p^\widehat p 保证以下近似质量:

pp^log(10)10000.048.(2.19)|p-\widehat p|\le\sqrt{\frac{log(10)}{1000}}\approx 0.048.(2.19)

当在样本SS上进行训练时,我们是否能轻易地应用推论2.2来限制学习算法返回的假设hsh_s的泛化误差?不,因为 hsh_s 不是一个固定的假设,而是取决于所抽取的训练样本的随机变量。还要注意,与固定假设的情况不同,对于固定假设,经验误差的期望值是泛化误差(等式2.3),泛化误差RhSR(h_S)是一个随机变量,通常不同于期望值E[R^(hS)]E[\widehat R(h_S)],后者是一个常数。因此,正如在一致情况下的证明一样,我们需要导出一致收敛界,这是一个对所有假设hHh∈ H成立都具有很高概率的界。