2.4.3 估计和近似误差
假设h∈H中的误差和贝叶斯误差之间的差异可分解为:
R(h)−R∗=估计(R(h)−R(h∗))+近似值(R(h∗)−R∗),(2.25)
其中h∗是H中具有最小误差的假设,或者同类最佳假设。
第二项被称为近似误差,因为它衡量使用H可以近似贝叶斯误差的程度。它是假设集H的一个属性,是其丰富性的一个度量。由于底层分布D通常未知,因此无法访问近似误差。即使在各种噪声假设下,估计近似误差也是困难的。
第一项是估计误差,它取决于选择的假设h。它衡量假设h相对于同类最佳假设的质量。不可知PAC学习的定义也是基于估计误差。算法A的估计误差,即在样本S上训练后返回的假设hs的估计误差,有时可以在泛化误差方面有界。
例如,让 hSERM 表示经验风险最小化算法返回的假设,即用最小的经验错误返回假设hSERM的算法。然后,定理2.2或任何其他受suph∈H∣R(h)−R(h)∣所定的泛化约束,可用于约束经验风险最小化算法的估计错误。事实上,重写估计错误,使R(hSERM)出现,并使用根据算法的定义的R(hSERM)≤R(h∗),我们可以写
R(hSERM)−R(h∗)=R(hSERM)−R(hSERM)+R(hSERM)−R(h∗)≤R(hSERM)−R(hSERM)+R(h∗)−R(h∗)≤2h∈Hsup∣R(h)−R(h)∣.(2.26)
3.当H是有限假设集时,h∗必然存在;否则,在本讨论中,R(h∗) 可以用infh∈HR(h)代替。