2 PAC学习框架 (page 15 16)

449 阅读3分钟

RCR\in C为目标概念。固定ϵ>0\epsilon>0 .令Pr[Rs]Pr[R_s]表示RsR_s定义的区域的概率,即根据 DD 随机抽取的点落在 RSR_S 内的概率。由于我们的算法产生的误差只因落入 RSR_S 内的点,我们可以假设 Pr[RS] > ϵPr[R_S] > \epsilon;否则,无论接收到何种训练样本 SSRSR_S 的误差均小于或等于 ϵ\epsilon
现在,由于 Pr[RS] > ϵPr[R_S] > \epsilon,我们可以沿着 RSR_S 的边定义四个矩形区域 r1r_1r2r_2r3r_3 和 r4r_4,每个区域的概率至少为 ϵ/4\epsilon/4。这些区域可以通过沿边的空矩形开始并增加其大小直到其分布质量至少为 ϵ/4\epsilon/4 来构建。图 2.3 说明了这些区域的定义。
观察,如果 RSR_S 满足所有这四个区域,那么,因为它是一个矩形,它将在这四个区域中的每一个中都有一个边(几何参数)。它的误差区域,即它没有覆盖的 RR 部分,因此包含在这些区域中,并且概率质量不能超过 ϵ\epsilon。相反,如果 R(RS) > ϵ\mathcal R(R_S) > \epsilon,则 RSR_S 必须至少遗漏区域 ri , i  [1, 4] r_i , i ∈ [1, 4] 之一。结果,我们可以写

PrSDm[R(Rs)>ϵ]PrSDm[i=14{Rsri=}]i=14PrSDm[{Rsri=}]4(1ϵ/4)m(由于Pr[ri]>ϵ/4)4exp(mϵ/4),\begin{aligned} \underset {S\sim D^m}{Pr}[\mathcal R (R_s)>\epsilon ]& \leq\underset {S\sim D^m}{Pr}[\cup_{i=1}^4\{R_s\cap r_i=\emptyset\}] \\ & \leq\sum_{i=1}^4\underset {S\sim D^m}{Pr}[\{R_s\cap r_i=\emptyset\}] \\ & \leq4(1-\epsilon/4)^m \quad\quad\quad\quad\quad\quad\quad\quad(由于 Pr[r_i]>\epsilon/4)\\ & \leq4exp(-m\epsilon/4), \end{aligned}

对于最后一步,我们使用了对所有 x  Rx ∈ \R 都有效的一般恒等式 1  x  ex1 − x ≤ e^{−x}。对于任何 δ > 0δ > 0,为了确保 PrSDm [R(RS) > ϵ]  δ\underset {S∼D^m}{Pr} [\mathcal R(R_S) > \epsilon] ≤ δ,我们可以强加

4exp(ϵm/4)δm4ϵlog4δ.(2.6)4exp(-\epsilon m/4)\leq δ \Leftrightarrow m\ge\frac{4}{\epsilon}log\frac{4}{δ}.(2.6)

因此,对于任何ϵ>0\epsilon>0δ>0δ>0,如果样本量 mm 大于 4ϵlog4δ\frac{4}{\epsilon}log\frac{4}{δ} ,则PrSDm [R(RS) > ϵ]1δPr_{S∼D^m} [\mathcal R(R_S) > \epsilon]\leq 1-δ。此外,在R2\R^2和轴对齐的矩形中表示点的计算成本(可由其四个角定义)是恒定的。这证明了轴对齐矩形的概念类是PAC可学习的,并且PAC学习轴对齐矩形的样本复杂度为O(1ϵlog1δ)O(\frac{1}{\epsilon}log\frac{1}{δ}).

呈现样本复杂度结果如(2.6)(我们在本书中经常会看到)的等效方法是给出泛化界限。它指出,在概率至少为 1  δ1 − δ 的情况下,R(RS)\mathcal R(R_S) 的上限取决于某个数量,这个数量取决于样本大小 mm 和 δδ 。为了获得这一点,如果足以将 δδ 设置为等于 (2.5) 中导出的上限,即 δ = 4 exp(mϵ/4)δ = 4 exp(-m\epsilon /4) 并求解 ϵ\epsilon。这导致概率至少为 1  δ1 − δ,算法的误差被限制为:

R(Rs)4mlog4δ.(2.7)\mathcal R(R_s)\leq\frac{4}{m}log\frac{4}{δ}.(2.7)

对于这个例子,可以考虑其他 PAC 学习算法。例如,一种选择是返回不包含负点的最大轴对齐矩形。刚刚针对最紧密的轴对齐矩形提出的 PAC 学习证明可以很容易地适用于其他此类算法的分析。
请注意,我们在此示例中考虑的假设集 H 与概念类 C 重合,并且其基数是无限的。尽管如此,这个问题还是承认了 PAC 学习的一个简单证明。然后我们可能会问,类似的证明是否可以很容易地应用于其他类似的概念类。这并不那么简单,因为证明中使用的特定几何参数是关键。将证明扩展到其他概念类(如非同心圆的概念类)并非易事(参见练习 2.4)。因此,我们需要更通用的证明技术和更通用的结果。接下来的两节为我们提供了在有限假设集的情况下的此类工具。