2 PAC学习框架（page 17 18）2.2 有限假设集的保证 —— 一致情况在我们检查的轴对齐矩形的例子中，算

2.2 有限假设集的保证 —— 一致情况

在我们检查的轴对齐矩形的例子中，算法返回的假设 $h_S$ 总是一致的，即它在训练样本 $S$ 上不承认错误。在本节中，我们提出了一个通用的样本复杂度界限，或等效地，一个泛化界，对于一致的假设，在基数 $|H|$ 的情况下的假设集是有限的。由于我们考虑一致的假设，我们将假设目标概念 $c$ 在 $H$ 中。

定理2.1学习边界——有限H，一致情况

设 $H$ 是从 $X$ 到 $Y$ 映射的有限函数集。设 $A$ 是一个算法，对于任何目标概念 $c ∈ H$ 和 i.i.d.样本 $S$ 返回一个一致的假设 $h_S ：\widehat R(h_S) = 0$ 。那么，对于任何 $\epsilon,δ > 0$ ，不等式 $\underset {S∼D_m}{Pr}[R(h_S) ≤ \epsilon] ≥ 1−δ$ 成立，如果

m\ge\frac{1}{\epsilon}\bigg(log|H|+log\frac{1}{δ}\bigg).(2.8)

该样本复杂度结果允许以下等效陈述作为泛化界：对于任何 $\epsilon，δ > 0$ ，概率至少为 1 − δ，

R(h_s)\leq \frac{1}{m}\bigg(log|H|+log\frac{1}{δ}\bigg).(2.9)

证明固定一个 $\epsilon>0$ ，我们不知道算法A选择了哪个一致假设 $h_S ∈ H$ 。这个假设进一步依赖于训练样本 $S$ 。因此，我们需要给出一个一致的收敛界，即对所有一致假设的集合成立，其中更重要的是包括 $h_S$ 。因此，我们将限制某些 $h ∈ H$ 一致且误差大于 $\epsilon$ 的概率：

\begin{aligned} & \quad Pr[\exists h\in H:\widehat R(h)=0\land R(h)>\epsilon]\\ &=Pr[(h_1\in H,\widehat R(h_1)=0\land R(h_1)>\epsilon)\lor (h_2\in H,\widehat R(h_2)=0\land R(h_2)>\epsilon)\lor ...]\\ &\le \sum_{h\in H}Pr[\widehat R(h)=0\land R(h)>\epsilon] \quad\quad\quad\quad\quad\quad(联合约束)\\ &\le \sum_{h\in H}Pr[\widehat R(h)=0 | R(h)>\epsilon]\quad\quad\quad\quad\quad\quad\quad(条件概率的定义) \end{aligned}

现在，考虑任何假设 $h\in H$ ，其中 $R(h)>\epsilon$ .然后， $h$ 的概率在以i.i.d.绘制的训练样本 $S$ 上一致，即它在 $S$ 中的任何点都没有误差，可以定义界限为：

Pr[\widehat R(h)=0|R(h)>\epsilon]\le(1-\epsilon)^m.

前面的不等式意味着

Pr[\exists h\in H:\widehat R(h)=0\land R(h)>\epsilon]\le |H|(1-\epsilon)^m.

将右侧设置为等于 δ 并求解 ε 得出证明。

该定理表明，当假设集 $H$ 有限时，一致算法 $A$ 是 PAC 学习算法，因为（2.8）给出的样本复杂度由 $1/\epsilon$ 和 $1/δ$ 中的多项式支配。如（2.9）所示，一致假设的泛化误差的上限是以样本大小 $m$ 的函数而减小的项。这是一个普遍的事实：正如预期的那样，学习算法受益于更大的标记训练样本。然而，由该定理保证的 $O(1/m)$ 的下降率是特别有利的。
提出一致算法的代价是使用包含目标概念的更大的假设集 $H$ 。当然，上限（2.9）随着 $|H|$ 而增加。然而，这种依赖性只是对数的。请注意术语 $log |H|$ ，或相关术语 $log_2 |H|$ 与它相差一个常数因子，可以解释为表示 $H$ 所需的位数。因此，该定理的泛化保证由该位数的比、 $log_2 |H|$ 和样本大小 $m$ 控制。

2 PAC学习框架 （page 17 18）

2.2 有限假设集的保证 —— 一致情况

定理2.1学习边界——有限H，一致情况

2 PAC学习框架（page 17 18）