2 PAC学习框架 (page 27 28)

542 阅读2分钟

1.PNG

图2.5

结构风险最小化说明。三个错误的图示为容量测量函数。显然,随着假设集的规模或者容量的增加,训练误差会减少,而复杂术语会增加。SRM选择将一般误差的范围降至最低的假设,这是经验误差的总和,复杂性术语以红色显示。
(2.26)的右边可以被定理2.2所约束,并且随着假设集的大小而增大,R(h)R(h∗)随着|H|的减少而减少。

2.4.4模型选择

在这里,我们在前面几节提出的理论结果的基础上,讨论一些广泛的模型选择和算法思想。我们假设一个i.i.d.标签的大小为mm的训练样本SS,用R^S(h)\widehat R_S(h)表示假设hhSS上的误差,以明确表示它对SS的依赖.

虽然定理2.2的保证仅适用于有限假设集,但它已经为我们提供了一些设计算法的有用见解,并且正如我们将在接下来的章节中看到的,类似的保证适用于无限假设集的情况。这样的结果邀请我们考虑两个项:经验误差和复杂性项,哪一个在这里是H|H|和样本量mm的函数。
有鉴于此,ERM算法只寻求最小化训练样本的误差

hSERM=argminhHR^S(h),(2.27)h^{ERM}_{S}=\underset {h\in H}{argmin}\widehat R_S(h),(2.27)

可能不会成功,因为它忽略了复杂性这个术语。事实上,机构风险管理算法的性能在实践中通常非常差。此外,在许多情况下,确定机构风险管理解决方案在计算上是棘手的。例如,在训练样本上找到误差最小的线性假设是NP困难问题(非确定性多项式困难问题)(作为空间维度的函数)。

另一种被称为结构风险最小化(srm)的方法是考虑一个不断增大的无限假设集序列.

H0H1Hn(2.28)H_0\subset H_1 \cdot\cdot\cdot\cdot \subset H_n\cdot\cdot\cdot\cdot(2.28)

寻找每一个HnH_nERM解决方案hnERMh_{n}^{ERM}。选择的假设是 hnERMh_{n}^{ERM} 解中最小的经验误差和,复杂项复杂度(HnH_nmm)取决于HnH_n的大小(或者更广泛地说,容量,也就是,另一个衡量丰富性的标准HH)和样本大小mm

hSSRM=argminhHnnNR^S(h)+complexity(Hn,m)(2.29)h^{SRM}_{S}=\underset {\underset {n\in N}{h\in H_n}}{argmin}\widehat R_S(h)+complexity(H_n,m)(2.29)

图2.5阐明了 SRM 方法。尽管 SRM 受益于强大的理论保证,但它通常从计算机方面讲非常昂贵,因为它需要确定挖掘多个 ERM 问题的解决方案。注意,如果某个 n 的最小经验误差为零,则该ERM问题的数目不是无限的: 目标函数只能比nnn'≥ n大。
另一类算法是基于一个更直接的优化,由最小的经验误差之和和惩罚更复杂假设的正则化项组成。正规化一词通常被定义为h2||h||^2一些规则|| \cdot ||当 h 是一个向量空间: