定义2.4不可知PAC学习
设 H 是一个假设集。 A 是一个不可知的 PAC 学习算法,如果存在多项式函数 poly(⋅,⋅,⋅,⋅) 使得对于任何 ϵ > 0 和 δ > 0,对于 X × Y 上的所有分布 D,以下适用于任何样本大小 m ≥ poly(1/ϵ, 1/δ, n, size(c)):
S∼DmPr[R(hs)−h∈HminR(h)≤ϵ]≥1−δ.(2.21)
如果 A 进一步在 poly(1/ε, 1/δ, n, size(c)) 中运行,那么它被认为是一种高效的不可知 PAC 学习算法。
当一个点的标签可以由某个可测量的函数 f : X → Y(概率为 1)唯一确定时,则称该场景是确定性的。在这种情况下,考虑输入空间上的分布 D 就足够了。训练样本是通过根据 D 绘制 (x1, . . , xm) 获得的,并且通过 f 获得标签: yi = f(xi) 对于所有 i ∈ [1,m]。许多学习问题都可以在这种确定性场景中表述出来。
在前面的部分以及本书中介绍的大部分材料中,为了简单起见,我们将介绍限制在确定性场景中。然而,对于所有这些材料,对随机场景的扩展对读者来说应该是直截了当的。
2.4.2贝叶斯误差和噪声
在确定性情况下,根据定义,存在一个无泛化误差的目标函数f:R(h)=0。在随机情况下,任何假设都存在最小的非零误差
定义2.5贝叶斯误差
给定X×Y上的分布D,贝叶斯误差R∗定义为可测函数h:X→Y所获得误差的下确界:
R∗=h可测量的hinfR(h).(2.22)
R(h) = R∗ 的假设 h 称为贝叶斯假设或贝叶斯分类器
根据定义,在确定性情况下,我们有 R∗ = 0,但在随机情况下,R∗=0 显然,贝叶斯分类器 hBayes 可以根据条件概率定义为:
∀x∈X,hBayes(x)=y∈{0,1}argmaxPr[y][x].(2.23)
hBayes 在 x ∈ X 上的平均误差是 minPr[0∣x], Pr[1∣x],这是最小可能的误差。这导致噪声的以下定义。
定义2.6 噪声
给定 X × Y 上的分布 D,点 x ∈ X 处的噪声定义为
noise(x)=min{Pr[1∣x],Pr[0∣x]}.(2.24)
平均噪声或与 D 相关的噪声是 E[noise(x)]。
因此,平均噪声正是贝叶斯误差:noise = E[noise(x)] = R∗。噪音是学习任务的特征,表示其难度。一个点 x ∈ X,其噪声(x)接近 1/2,有时被称为噪声,当然对准确预测来说是一个挑战。