2 PAC学习框架 (page 26)

363 阅读1分钟

2.4.3 估计和近似误差

假设hHh ∈ H中的误差和贝叶斯误差之间的差异可分解为:

R(h)R=(R(h)R(h))估计+(R(h)R)近似值,(2.25)R(h)-R^*=\underbrace{(R(h)-R(h^*))}_{估计}+\underbrace{(R(h^*)-R^*)}_{近似值},(2.25)

其中hh^*HH中具有最小误差的假设,或者同类最佳假设。
第二项被称为近似误差,因为它衡量使用HH可以近似贝叶斯误差的程度。它是假设集HH的一个属性,是其丰富性的一个度量。由于底层分布DD通常未知,因此无法访问近似误差。即使在各种噪声假设下,估计近似误差也是困难的。
第一项是估计误差,它取决于选择的假设hh。它衡量假设hh相对于同类最佳假设的质量。不可知PAC学习的定义也是基于估计误差。算法AA的估计误差,即在样本SS上训练后返回的假设hsh_s的估计误差,有时可以在泛化误差方面有界。
例如,让 hSERMh^{ERM}_S 表示经验风险最小化算法返回的假设,即用最小的经验错误返回假设hSERMh^{ERM}_S的算法。然后,定理2.22.2或任何其他受suphHR(h)R^(h)sup_{h\in H}|R(h)-\widehat R(h)|所定的泛化约束,可用于约束经验风险最小化算法的估计错误。事实上,重写估计错误,使R^(hSERM)\widehat R(h^{ERM}_S)出现,并使用根据算法的定义的R^(hSERM)R^(h)\widehat R(h^{ERM}_S)\leq\widehat R(h^*),我们可以写

R(hSERM)R(h)=R(hSERM)R^(hSERM)+R^(hSERM)R(h)R(hSERM)R^(hSERM)+R^(h)R(h)2suphHR(h)R^(h).(2.26)\begin{aligned} R(h^{ERM}_S)-R(h^*)& =R(h^{ERM}_S)-\widehat R(h^{ERM}_S)+\widehat R(h^{ERM}_S)-R(h^*)\\ & \leq R(h^{ERM}_S)-\widehat R(h^{ERM}_S)+\widehat R(h^*)-R(h^*)\\ & \leq 2\underset {h\in H}{sup}|R(h)-\widehat R(h)|.(2.26) \end{aligned}

3.3.HH是有限假设集时,hh^∗必然存在;否则,在本讨论中,R(h)R(h^∗) 可以用infhHR(h)代替inf_{h\in H}R(h)代替