2 PAC学习框架 (page 25)

609 阅读2分钟

定义2.4不可知PAC学习

设 HH 是一个假设集。 AA 是一个不可知的 PAC 学习算法,如果存在多项式函数 poly(,,,)poly(·,·,·,·) 使得对于任何 ϵ > 0\epsilon > 0 和 δ > 0δ > 0,对于 X × YX × Y 上的所有分布 DD,以下适用于任何样本大小 m  poly(1/ϵ, 1/δ, n, size(c))m ≥ poly(1/\epsilon, 1/δ, n, size(c))

PrSDm[R(hs)minhHR(h)ϵ]1δ.(2.21)\underset {S\sim D^m}{Pr}[R(h_s)-\underset {h\in H}{min}R(h)\le \epsilon]\ge1-δ.(2.21)

如果 A 进一步在 poly(1/ε, 1/δ, n, size(c)) 中运行,那么它被认为是一种高效的不可知 PAC 学习算法。

当一个点的标签可以由某个可测量的函数 f : X  Yf : X → Y(概率为 1)唯一确定时,则称该场景是确定性的。在这种情况下,考虑输入空间上的分布 DD 就足够了。训练样本是通过根据 DD 绘制 (x1, . . , xm)(x1, . . , xm) 获得的,并且通过 ff 获得标签: yi = f(xi)y_i = f(x_i) 对于所有 i  [1,m]i ∈ [1,m]。许多学习问题都可以在这种确定性场景中表述出来。
在前面的部分以及本书中介绍的大部分材料中,为了简单起见,我们将介绍限制在确定性场景中。然而,对于所有这些材料,对随机场景的扩展对读者来说应该是直截了当的。

2.4.2贝叶斯误差和噪声

在确定性情况下,根据定义,存在一个无泛化误差的目标函数f:R(h)=0。在随机情况下,任何假设都存在最小的非零误差

定义2.5贝叶斯误差

给定X×YX×Y上的分布DD,贝叶斯误差RR^∗定义为可测函数h:XYh:X→ Y所获得误差的下确界:

R=infhh可测量的R(h).(2.22)R^*=\underset {\underset{h 可测量的}{h}}{inf}R(h).(2.22)

R(h) = RR(h) = R^∗ 的假设 h 称为贝叶斯假设或贝叶斯分类器
根据定义,在确定性情况下,我们有 R = 0R^∗ = 0,但在随机情况下,R0R^*\neq 0 显然,贝叶斯分类器 hBayesh_{Bayes} 可以根据条件概率定义为:

xX,hBayes(x)=argmaxPry{0,1}[y][x].(2.23)\forall x\in X, h_{Bayes}(x)=\underset {y\in \{0,1\}}{argmaxPr}[y][x].(2.23)

hBayesh_{Bayes} 在 x  Xx ∈ X 上的平均误差是 minPr[0x], Pr[1x]min{Pr[0|x], Pr[1|x]},这是最小可能的误差。这导致噪声的以下定义。

定义2.6 噪声

给定 X × YX × Y 上的分布 DD,点 x  Xx ∈ X 处的噪声定义为

noise(x)=min{Pr[1x],Pr[0x]}.(2.24)noise(x)=min\{Pr[1|x],Pr[0|x]\}.(2.24)

平均噪声或与 DD 相关的噪声是 E[noise(x)]E[noise(x)]
因此,平均噪声正是贝叶斯误差:noise = E[noise(x)] = Rnoise = E[noise(x)] = R^*。噪音是学习任务的特征,表示其难度。一个点 x  Xx ∈ X,其噪声(x)(x)接近 1/21/2,有时被称为噪声,当然对准确预测来说是一个挑战。