2.2 有限假设集的保证 —— 一致情况
在我们检查的轴对齐矩形的例子中,算法返回的假设 hS 总是一致的,即它在训练样本 S 上不承认错误。 在本节中,我们提出了一个通用的样本复杂度界限,或等效地,一个泛化界,对于一致的假设,在基数∣H∣的情况下的假设集是有限的。由于我们考虑一致的假设,我们将假设目标概念 c 在 H 中。
定理2.1学习边界——有限H,一致情况
设 H 是从 X 到 Y 映射的有限函数集。设 A 是一个算法,对于任何目标概念 c ∈ H 和 i.i.d.样本 S 返回一个一致的假设 hS :R(hS) = 0。那么,对于任何 ϵ,δ > 0,不等式 S∼DmPr[R(hS) ≤ ϵ] ≥ 1−δ 成立,如果
m≥ϵ1(log∣H∣+logδ1).(2.8)
该样本复杂度结果允许以下等效陈述作为泛化界:对于任何 ϵ,δ > 0,概率至少为 1 − δ,
R(hs)≤m1(log∣H∣+logδ1).(2.9)
证明 固定一个ϵ>0,我们不知道算法A选择了哪个一致假设hS ∈ H。这个假设进一步依赖于训练样本S。因此,我们需要给出一个一致的收敛界,即对所有一致假设的集合成立,其中更重要的是包括 hS。因此,我们将限制某些 h ∈ H 一致且误差大于 ϵ 的概率:
Pr[∃h∈H:R(h)=0∧R(h)>ϵ]=Pr[(h1∈H,R(h1)=0∧R(h1)>ϵ)∨(h2∈H,R(h2)=0∧R(h2)>ϵ)∨...]≤h∈H∑Pr[R(h)=0∧R(h)>ϵ](联合约束)≤h∈H∑Pr[R(h)=0∣R(h)>ϵ](条件概率的定义)
现在,考虑任何假设h∈H,其中R(h)>ϵ.然后,h的概率在以i.i.d.绘制的训练样本S上一致,即它在S中的任何点都没有误差,可以定义界限为:
Pr[R(h)=0∣R(h)>ϵ]≤(1−ϵ)m.
前面的不等式意味着
Pr[∃h∈H:R(h)=0∧R(h)>ϵ]≤∣H∣(1−ϵ)m.
该定理表明,当假设集 H 有限时,一致算法 A 是 PAC 学习算法,因为(2.8)给出的样本复杂度由 1/ϵ 和 1/δ 中的多项式支配。如(2.9)所示,一致假设的泛化误差的上限是以样本大小 m 的函数而减小的项。这是一个普遍的事实:正如预期的那样,学习算法受益于更大的标记训练样本。然而,由该定理保证的 O(1/m) 的下降率是特别有利的。
提出一致算法的代价是使用包含目标概念的更大的假设集 H。当然,上限(2.9)随着∣H∣而增加。然而,这种依赖性只是对数的。请注意术语 log ∣H∣,或相关术语 log2 ∣H∣与它相差一个常数因子,可以解释为表示 H 所需的位数。因此,该定理的泛化保证由该位数的比、log2 ∣H∣ 和样本大小m控制。