图2.5
结构风险最小化说明。三个错误的图示为容量测量函数。显然,随着假设集的规模或者容量的增加,训练误差会减少,而复杂术语会增加。SRM选择将一般误差的范围降至最低的假设,这是经验误差的总和,复杂性术语以红色显示。
(2.26)的右边可以被定理2.2所约束,并且随着假设集的大小而增大,随着|H|的减少而减少。
2.4.4模型选择
在这里,我们在前面几节提出的理论结果的基础上,讨论一些广泛的模型选择和算法思想。我们假设一个i.i.d.标签的大小为的训练样本,用表示假设在上的误差,以明确表示它对的依赖.
虽然定理2.2的保证仅适用于有限假设集,但它已经为我们提供了一些设计算法的有用见解,并且正如我们将在接下来的章节中看到的,类似的保证适用于无限假设集的情况。这样的结果邀请我们考虑两个项:经验误差和复杂性项,哪一个在这里是和样本量的函数。
有鉴于此,ERM算法只寻求最小化训练样本的误差
可能不会成功,因为它忽略了复杂性这个术语。事实上,机构风险管理算法的性能在实践中通常非常差。此外,在许多情况下,确定机构风险管理解决方案在计算上是棘手的。例如,在训练样本上找到误差最小的线性假设是NP困难问题(非确定性多项式困难问题)(作为空间维度的函数)。
另一种被称为结构风险最小化(srm)的方法是考虑一个不断增大的无限假设集序列.
寻找每一个的ERM解决方案。选择的假设是 解中最小的经验误差和,复杂项复杂度(,)取决于的大小(或者更广泛地说,容量,也就是,另一个衡量丰富性的标准)和样本大小:
图2.5阐明了 SRM 方法。尽管 SRM 受益于强大的理论保证,但它通常从计算机方面讲非常昂贵,因为它需要确定挖掘多个 ERM 问题的解决方案。注意,如果某个 n 的最小经验误差为零,则该ERM问题的数目不是无限的: 目标函数只能比大。
另一类算法是基于一个更直接的优化,由最小的经验误差之和和惩罚更复杂假设的正则化项组成。正规化一词通常被定义为一些规则当 h 是一个向量空间: