Chapter 3 A Formal Learning Model

448 阅读33分钟

3    一种形式化的学习模型

在本章中,我们定义了我们的主要的形式化学习模型—PAC学习模型及其扩展。我们将在第七章中考虑可学性的其他概念。

3.1    PAC学习

在前一章中,我们已经表明,对于有限假设类,如果将关于该类的ERM规则应用于足够大的训练样本(其大小独立于底层分布或标记函数),则输出的假设可能是近似正确的。更一般地说,我们现在定义概率近似正确 (PAC)学习。
定义3.1(PAC可学性) 一个假设类 H\mathcal H 是PAC可学的,如果存在一个函数 mH:(0,1)2Nm_{_{\mathcal H}}:(0,1)^{^2}\to\mathbb NmHm_{_{\mathcal H}} 是关于 ϵ\epsilonδ\delta 的函数),以及具有以下性质的学习算法:对于每一个 ϵ\epsilonδ(0,1)\delta\in(0,1) ,对于 X\mathcal X 上的每个分布 D\mathcal D ,以及对于每个标记函数 f:X{0,1}f:\mathcal X\to\{0,1\} ,如果关于 H\mathcal HD\mathcal Df\mathcal f 的可实现性假设成立,那么当在样本集大小 mmH(ϵ,δ)m\ge m_{_{\mathcal H}}(\epsilon,\delta) 并由 D\mathcal D 独立同分布生成和 ff 标记的样本上运行学习算法时,算法返回假设 hh ,使得在概率至少为 1δ1-\delta (关于样本的选择)的情况下 L(D,f)(h)ϵL_{_{(D,f)}}(h)\le\epsilon


PAC可学的另一种表述: 如果存在算法 AA 和一个多项式函数 poly(,,,)poly(\cdot,\cdot,\cdot,\cdot) ,使得对于任意 ϵ>0\epsilon>0δ>0\delta>0 ,以及所有关于 X\mathcal X 和任何目标概念 cCc\in C 上的分布 D\mathcal D,若下式:

PSDm[R(hs)ϵ]1δ\underset{S\sim\mathcal D^m}{\mathbb P}[R(h_s)\le\epsilon]\ge 1-\delta,

在任何样本集大小 mpoly(1ϵ,1δ,n,size(c))m\geq poly(\frac 1\epsilon,\frac 1\delta,n,size(c)) (其中 nn 是一个数字,使得表示任何元素 xXx\in\mathcal X 的计算成本最多为 O(n)O(n) ,并用 size(c)\text{size}(c) 指代 cCc\in\mathcal C 的计算表示的最大成本。)的情况下都成立,则称概念 CC 是PAC可学的。
  其中一个概念 c:XYc:\mathcal X\to\mathcal Y 是从 X\mathcal XY\mathcal Y 的映射。由于 Y={0,1}\mathcal Y=\{0,1\} ,我们可以用 X\mathcal X 取值为 11 的子集来标识 cc 。因此,在下面,我们等价地将要学习的概念称为从 X\mathcal X{0,1}\{0,1\} 的映射或作为 X\mathcal X 的子集。例如,概念可以是三角形内的点集或这些点的指示函数。 在这种情况下,我们简而言之,要学习的概念是一个三角形。概念类是我们可能希望学习的一组概念,用 cc 表示。例如,这可以是平面中所有三角形的集合。我们假设根据一些固定但未知的分布 D\mathcal D ,示例是独立同分布的。学习器考虑一组固定的可能的概念H\mathcal H,称为假设集 ,它可能不一定与 c\mathcal c 一致。它接收在 D\mathcal D 下的独立同分布采样的样本 S=(x1,...,xm)S=\big(x_{_1},...,x_{_m}\big) 以及标签 (c(x1),...,c(xm))\big(c(x_{_1}),...,c(x_{_m})\big) ,这都是基于特定的目标概念 cCc\in\mathcal C来学习的。然后,任务是使用带标记的样本 SS 来选择相对于概念 cc 具有小泛化误差的假设 hSHh_{_S}\in\mathcal H 。假设 hHh\in\mathcal H 的泛化误差,也称为 H\mathcal H 的风险或真实误差(或简称误差),由 R(h)\mathcal R(h) 表示,定义:给定一个假设 hHh\in\mathcal H,一个目标概念 cCc\in\mathcal C ,一个潜在分布 D\mathcal D ,则 hh泛化误差风险 定义为

R(h)=PxD[h(x)c(x)]=ExD[1h(x)c(x)],R(h)=\underset{x\sim\mathcal D}{\mathbb P}[h(x) \neq c(x)]=\underset{x\sim\mathcal D}{\text E} [1_{_{h(x)\neq c(x)}}],

其中 1ω1_{_ω} 是事件 ww 的指示函数。
对于这个和其他相关的定义,函数族 H\mathcal H 和目标概念 cc 必须是可测的。我们在这本书里考虑的函数类都有这个性质。
由于潜在分布 D\mathcal D 和目标概念 cc 都是未知的,所以学习器无法直接了解假设的泛化误差。然而,学习器可以在带标记的样本集 SS 上测量假设的经验误差


       概率近似正确的可学性的定义包含两个近似参数。准确度参数 ϵ\epsilon 确定学习算法 A\mathcal A 输出的分类器与最佳分类器的“距离”(这对应于“近似正确”),以及表明分类器满足该准确度要求的可能性的置信参数 δ\delta (对应于“PAC(概率近似正确)” 的 “P(概率)”部分)。在我们正在研究的数据存取模型下,这些近似是不可避免的。由于训练集是随机生成的,因此它可能总是有很小的概率不提供信息(例如,训练集总是有可能只包含一个域点,一遍又一遍地采样)。此外,即使我们足够幸运地得到一个能够真实代表 D\mathcal D 的训练样本集,因为它只是一个有限的样本集,可能总有一些关于 D\mathcal D 的细节无法反映出来。我们的准确度参数 ϵ\epsilon 可以“原谅”学习器给出的分类器犯的小错误。

样本复杂性
函数 mH:(0,1)2Nm_{_{\mathcal H}}:(0,1)^{^2}\to\mathbb N 给出了学习假设类 H\mathcal H样本复杂度 :即需要多少个例子才能保证得到一个概率近似正确的解。样本复杂度是准确度参数( ϵ\epsilon )和置信参数( δ\delta )的函数。它还取决于假设类 H\mathcal H 的性质——例如,对于有限的假设类,我们表明样本复杂度取决于 H\mathcal H 的对数大小。
       请注意,如果 H\mathcal H 是PAC可学的,则有许多函数 mHm_{_{\mathcal H}} 满足PAC可学性定义中给出的要求。因此,准确地说,我们将把学习 H\mathcal H 的样本复杂度定义为“最小函数”,即对于任何 ϵ\epsilonδ\deltamH(ϵ,δ)m_{_{\mathcal H}}(\epsilon,\delta) 是满足具有准确度参数 ϵ\epsilon 和置信参数 δ\delta 的PAC学习要求的最小整数。
       现在让我们回忆一下前一章对有限假设类分析的结论。它可以重新表述为:

推论3.2   每个样本复杂度满足

mH(ϵ,δ)log(Hδ)ϵm_{_{\mathcal H}}(\epsilon,\delta)\le\left\lceil\frac{\log(\frac{\lvert\mathcal H\rvert}{\delta})}{\epsilon}\right\rceil

的有限假设类都是PAC可学的。
       另外无限假设类类也是可以学的(例如,参见练习3)。稍后我们将展示,决定一个类的PAC可学性的不是它的有限性,而是一个叫做VC维 的组合度量。

3.2    一个更通用的学习模型

我们刚才描述的模型可以很容易地被推广,这样它就可以与更广泛的学习任务相关联。我们考虑两个方面的概括:

去除可实现性假设
我们要求学习算法在一对数据分布 D\mathcal D 和标记函数 ff 上取得成功,前提是满足可实现性假设。对于实际的学习任务来说,这个假设可能太强了(我们真的能保证颜色-硬度空间中有一个矩形完全决定 了哪些木瓜好吃吗?)。在下一小节中,我们将描述不可知 的PAC模型,其中放弃了这个可实现性假设。

超过二元分类的学习问题
到目前为止,我们一直在讨论的学习任务与预测给定示例的二进制标签有关(比如是否好吃)。然而,许多学习任务采取不同的形式。例如,人们可能希望预测一个实数值(比如明天晚上9:00的温度)或者从有限的一组标签中选出的一个标签(就像明天报纸的主要故事的主题)。事实证明,通过允许各种损失函数,我们对学习的分析可以很容易地扩展到这种情况和许多其他情况。我们将在后面的第3.2.2节中讨论。

3.2.1    放宽可实现性假设——不可知论的PAC学习


不可知论,与可知论相对,是一种哲学的认识论,认为除了感觉或现象之外,世界本身是无法认识的。最初由英国生物学家T.H.赫胥黎于1869年提出。不可知论断言人的认识能力不能超出感觉经验或现象的范围,不能认识事物的本质及发展规律。在现代西方哲学中,许多流派从不可知论出发来否定科学真理的客观性。否认认识世界的可能性或者否认彻底认识世界的可能性的哲学理论。


一个更真实的数据生成分布模型
回想一下,可实现性假设要求存在 hHh^{★}\in\mathcal H 使得 PxD[h(x)=f(x)]=1\mathbb P_{_{x\sim\mathcal D}}[h^{★}(x)=f(x)]=1 。在许多实际问题中,这个假设并不成立。此外,不去假设标签完全由我们在输入元素上测量的特征决定可能更现实(在木瓜的例子中,两个颜色和硬度相同的木瓜可能会有不同的味道)。在下文中,我们放宽了可实现性的假设,用一个更灵活的概念来代替“目标标记函数”,即数据标记生成分布。
       形式上,从现在开始,令 D\mathcal DX×Y\mathcal X\times\mathcal Y 上的概率分布,其中,和之前一样, X\mathcal X 是我们的(定义)域集, Y\mathcal Y 是一组标签(通常我们会考虑 Y={0,1}\mathcal Y=\{0,1\} )。也就是说,D\mathcal D 是域点和标签上的联合分布。人们可以将这种分布看作由两部分组成:在未标记的域点上的分布 Dx\mathcal D_{_x} (有时称为边缘分布 )和在每个域点的标记上的条件 概率分布 D((x,y)x)\mathcal D\big((x,y)\vert x\big) 。在木瓜的例子中,Dx\mathcal D_{_x} 决定遇到颜色和硬度落在某些颜色-硬度值域中的木瓜的概率,条件概率是由 xx 表示的颜色和硬度的木瓜是美味的概率。事实上,这种建模允许两种颜色和硬度相同的木瓜属于不同的口味类别。

经验和真实误差修正
对于概率分布 D\mathcal D ,在 X×Y\mathcal X\times\mathcal Y 上,我们可以测量当根据 D\mathcal D 随机抽取带标记的点时,hh 出错的可能性有多大。我们将预测规则 hh 的真实错误(或风险)重新定义为

LD(h) =def P(x,y)D[h(x)y] =def  D({(x,y):h(x)y}).(3.1)L_{_D}(h)\ \overset{\text{def}}{=}\ \underset{(x,y)\sim\mathcal D}{\mathbb P}[h(x)\neq y]\ \overset{\text{def}}{=}\ \ \mathcal D(\{(x,y):h(x)\neq y\}).\qquad\qquad\quad(3.1)

       我们想找到一个预测器 hh ,它的误差将被最小化。然而,学习器不知道数据生成分布 D\mathcal D 。学习器实际上可以访问的是训练数据 SS 。经验风险的定义和以前一样,即

LS(h) =def {i[m]:h(xi)yi}mL_{_S}(h)\ \overset{\text{def}}{=}\ \frac{\lvert\{i\in[m]:h(x_{_i})\neq y_{_i}\}\rvert}{m}

给定 SS ,学习器可以计算任意函数 h:X{0,1}h:X\to\{0,1\}LS(h)L_{_S}(h) 。注意 LS(h)=LD(uniform over S)(h)L_{_S}(h)=L_{_{\mathcal D(uniform\ over\ S)}}(h)

目标
我们希望找到某种假设 h:XYh:\mathcal X\to\mathcal Y ,它(概率近似)使真实风险 LD(h)L_{_{\mathcal D}}(h) 最小化。

贝叶斯最优预测器
给定 X×{0,1}\mathcal X\times\{0,1\} 上的任何概率分布 D\mathcal D ,从 X\mathcal X{0,1}\{0,1\} 的最佳标签预测函数将是

fD(x)={1if  P[y=1x]120otherwisef_{_{\mathcal D}}(x)=\left\{ \begin{aligned} &1\qquad\text{if}\ \ \mathbb P[y=1\vert x]\ge \frac12 \\ &0\qquad\text{otherwise} \end{aligned} \right.

       很容易验证(见练习7),对于每个概率分布 D\mathcal D ,贝叶斯最优预测器 fDf_{_\mathcal D} 是最优的,也就是说,没有其他分类器 g:X{0,1}g:\mathcal X\to\{0,1\} 具有更低的误差。也就是说,对于每个分类器 ggLD(fD)LD(g)L_{_\mathcal D}(f_{_\mathcal D})\le L_{_\mathcal D}(g)
       不幸的是,由于我们不知道 D\mathcal D ,我们不能利用这个最佳预测器 fDf_{_\mathcal D} 。学习器可以获得的是训练样本。我们现在可以给出不可知的PAC可学性的正式定义,这是PAC可学性的定义在我们刚刚讨论的更现实、不可实现(nonrealizable)的学习设置的自然扩展。
       显然,我们不能指望学习算法会找到一个误差小于最小可能误差的假设,即贝叶斯预测器。
       此外,正如我们将在后面证明的那样,一旦我们对数据生成分布不做任何先验假设,就不能保证任何算法都能找到一个和贝叶斯最优预测器一样好的预测器。相反,我们要求学习算法将找到一个预测器,该预测器的误差不会比某个给定基准假设类中的预测器的最佳可能误差大得多。当然,这样一个要求的强度取决于那个(基准)假设类的选择。
定义3.3(不可知论的PAC可学性)   假设类 H\mathcal H 是不可知论的PAC可学的,如果存在函数 mH:(0,1)2Nm_{_\mathcal H}:(0,1)^2\to\mathbb N 和具有以下性质的学习算法:对于每一个 ϵ\epsilonδ(0,1)\delta\in(0,1) 并且对于 X×Y\mathcal X\times\mathcal Y 上的每个分布 D\mathcal D ,当在样本集大小 mmH(ϵ,δ)m\ge m_{_{\mathcal H}}(\epsilon,\delta) 并由 D\mathcal D 独立同分布生成的样本上运行学习算法时,算法返回假设 hh ,使得以至少 1δ1-\delta 的概率 (关于 mm 个训练示例的选择),

LD(h) minhH LD(h)+ϵ .L_{_{\mathcal D}}(h)\le\ \underset{_{h^{\prime}\in\mathcal H}}{\min}\ L_{_{\mathcal D}}(h^{\prime})+\epsilon\ .

       显然,如果可实现性假设成立,不可知论的PAC学习提供了与PAC学习相同的保证。从这个意义上说,不可知论的PAC学习泛化了PAC学习的定义。当可实现性假设不成立时,没有一个学习器能保证一个任意小的错误。然而,在不可知论的PAC学习的定义下,如果学习器的误差不比 H\mathcal H 类的预测器所能达到的最佳误差大得多,那么仍然可以说学习器是成功的。这与PAC学习形成对比,在PAC学习中,学习器需要达到绝对意义上的小误差,而不是相对于(基准)假设类所能达到的最佳误差。

3.2.2    学习问题建模的范围

我们接下来扩展我们的模型,以便它可以应用于各种各样的学习任务。让我们考虑一些不同学习任务的例子。

  • 多类分类:我们的分类不是必须是二元分类。以文档分类任务为例:我们希望设计一个程序,能够根据主题(如新闻、体育、生物、医学)对给定的文档进行分类。用于这种任务的学习算法将读取正确分类的文档的示例,并且基于这些示例,输出一个程序,该程序可以将新文档作为输入,并且输出该文档的主题分类。这里,(定义)域集是所有潜在文档的集合。同样,我们通常通过一组特征来表示文档,这些特征可以包括文档中不同关键词的数量,以及其他可能相关的特征,如文档的大小或其来源。此任务中的标签集将是可能的文档主题集(因此 Y\mathcal Y 将是某个大型的有限的集合)。一旦我们确定了我们的域集和标签集,我们框架的其他成分看起来就和木瓜测试示例中的完全一样;我们的训练样本 将是(特征向量,标签)对的有限序列,学习器的输出将是从域集到标签集的函数,最后,我们对于成功的度量,可以使用我们的预测器给出关于(文档,主题)对的错误标签的事件的概率。
  • 回归:在这项任务中,人们希望在数据中找到一些简单的模式(pattern)—— 数据的 X\mathcal XY\mathcal Y 分量之间的函数关系。 例如,人们希望找到一种线性函数,该函数可以根据婴儿的头围、腹围和股骨长度的超声波测量值来最好地预测婴儿的出生体重。在这里,我们的域集 X\mathcal XR3\mathbb R^{^3}(三个超声波测量值)的某个子集,而“标签”集 Y\mathcal Y 是实数集(以克为单位的重量)。在这种情况下,将 Y\mathcal Y 称为目标 集更为合适。我们的训练数据以及学习器的输出和以前一样(分别是 (x,y)(x,y) 对的有限序列,以及从 X\mathcal XY\mathcal Y 的函数)。然而,我们衡量成功的标准是不同的。我们可以通过真实标签与其预测值之间的期望平方差 来评估假设函数 h:XYh:\mathcal X\to\mathcal Y 的质量,即
LD(h) =defE(x,y)D(h(x)y)2 .(3.2)L_{_{\mathcal D}}(h)\ \overset{\text{def}}{=}\underset{(x,y)\sim\mathcal D}{\mathbb E}(h(x)-y)^2\ .\qquad\qquad\qquad\quad(3.2)

       为了适应各种各样的学习任务,我们将我们的成功标准概括如下:

广义损失函数
给定任何集合 H\mathcal H (扮演我们的假设或模型的角色)和某个域 ZZ ,令 \ellH×Z\mathcal H\times Z 到非负实数集合的任何函数,:H×ZR+\ell:\mathcal H\times Z\to\mathbb R_+
       我们称这样的函数为损失函数
       请注意,对于预测问题,我们有 Z=X×YZ=\mathcal X\times\mathcal Y 。然而,我们的损失函数的概念被推广到预测任务之外,因此它允许 ZZ 是示例的任何域(例如,在诸如第22章中描述的无监督学习任务中,ZZ 不是实例域和标签域的乘积)。
       我们现在将风险函数定义为分类器相对于 ZZ 上的概率分布 DD 的预期损失 hHh\in\mathcal H ,即,

LD(h)=defEzD[(h,z)] .(3.3)L_{_{\mathcal D}}(h)\overset{\text{def}}{=}\underset{z\sim\mathcal D}{\mathbb E}[\ell(h,z)]\ .\qquad\qquad\qquad\quad(3.3)

       上述分类和回归任务示例中使用的损失函数如下:

  • 0–1损失: 这里,我们的随机变量 zz 的范围是 X×Y\mathcal X\times\mathcal Y 对的集合,损失函数是
    01(h,(x,y))=def{0if  h(x)=y1if  h(x)y\ell_{_{0-1}}(h,(x,y))\overset{\text{def}}{=}\left\{ \begin{aligned} &0\qquad\text{if}\ \ h(x)=y \\ &1\qquad\text{if}\ \ h(x)\neq y \end{aligned} \right.
           这个损失函数用于二进制或多类分类问题。
           应该注意的是,对于随机变量 α\alpha ,取值 {0,1}\{0,1\}EαD[α]=PαD[α=1]\mathbb E_{\alpha\sim\mathcal D}[\alpha]=\mathbb P_{\alpha\sim\mathcal D}[\alpha=1] 。因此,对于该损失函数,等式(3.3)和等式(3.1)中给出的 LD(h)L_{\mathcal D}(h) 的定义一致。
  • 平方损失: 这里,我们的随机变量 zz 的范围是 X×Y\mathcal X\times\mathcal Y 对的集合,损失函数是
    sq(h,(x,y))=def(h(x)y)2 .\ell_{_\text{sq}}(h,(x,y))\overset{\text{def}}{=}(h(x)-y)^{^2}\ .
           这个损失函数用于回归问题。
           我们将在后面看到更多有用的损失函数实例的例子。

       总之,我们正式定义了一般损失函数的不可知的可学性。

定义3.4(一般损失函数的不可知的PAC可学性) 假设类 H\mathcal H 对于集合 ZZ 和损失函数 :H×ZR+\ell:\mathcal H\times Z\to\mathbb R_+ 是不可知论的PAC可学的,如果存在函数 mH:(0,1)2Nm_{_{\mathcal H}}:(0,1)^2\to\mathbb N 和具有以下性质的学习算法:对于每一个 ϵ\epsilonδ(0,1)\delta\in(0,1) 并且对关于 ZZ 上的每个分布 D\mathcal D ,当在样本集大小 mmH(ϵ,δ)m\ge m_{_{\mathcal H}}(\epsilon,\delta) 并由 D\mathcal D 独立同分布生成的样本上运行学习算法时,算法返回 hHh\in H ,使得至少有 1δ1-\delta (关于 mm 个训练示例的选择)的概率,

LD(h)minhH LD(h)+ϵ ,L_{_{\mathcal D}}(h)\le\underset{h^{\prime}\in\mathcal H}{\min}\ L_{_\mathcal D}(h^{\prime})+\epsilon\ ,

其中 LD(h)=EzD[(h,z)]L_{_{\mathcal D}}(h)=\mathbb E_{_{z\sim\mathcal D}}[\ell(h,z)]
备注3.1(关于可测性的注释^{^*} 在前面的定义中,对于每一个 hHh\in H ,我们把函数 (h,):ZR+\ell(h,\cdot):Z\to\mathbb R_+ 看作一个随机变量,把 LD(h)L_{_\mathcal D}(h) 定义为这个随机变量的期望值。为此,我们需要要求函数 (h,)\ell(h,\cdot) 是可测量的。形式上,我们假设有一个 ZZ 子集的 σ\sigma-代数,在这个 σ\sigma-代数上定义了概率 D\mathcal D ,并且 R+\mathbb R_+ 中每个初始段的原像都在这个 σ\sigma-代数中。在具有 010-1 损失的二进制分类的具体情况下, σ\sigma-代数在 X×{0,1}\mathcal X\times\{0,1\} 上,我们关于 \ell 的假设等价于这样的假设,即对于每个hh ,集合 {(x,h(x)):xX}\{(x,h(x)):x\in\mathcal X\}σ\sigma-代数中。


在数学中,某个集合X上的σ-代数又叫σ-域,是X的幂集的子集合(X 的幂集即包含所有X 的子集的集合系)。这个子集满足对于补集运算和可数个并集运算的封闭性(因此对于可数个交集运算也是封闭的)。σ\sigma-代数在测度论里可以用来定义所谓的“可测集合”,是测度论的基础概念之一。
定义:
XX 为非空集合,集合系 F\mathcal F 中的元素是 P(X)\mathcal P(X) 的子集合,满足以下条件的集合系 F\mathcal F 称为 XX 上的一个σ-代数

  • XX 是集合系 F\mathcal F 中的元素;
  • 如果集合 AAF\mathcal F 中,那么它的补集 AcA^c 也在 F\mathcal F 中;
  • 如果有可数个集合 A1A_{_1}A2A_{_2}\cdots 都在 F\mathcal F 中,那么它们的并集也在 F\mathcal F 中。 在测度论里 (X,F)(X,\mathcal F) 称为一个可测空间。集合族 F\mathcal F 中的元素,也就是 XX 的某子集,称为可测集合。而在概率论中,这些集合被称为随机事件

例子:

  1. 假设集合 X={a,b,c,d}X=\{a,b,c,d\} ,那么 F={,{a},{b,c,d},X}\mathcal F=\{\empty,\{a\},\{b,c,d\},X\} 是集合 XX 上的一个 σ\sigma-代数。这也是所有包含 {a}\{a\}σ\sigma-代数中最“小”的一个。
  2. XX 上含集合最少的 σ\sigma-代数 {,X}\{\empty,X\}
    XX 上含集合最多的 σ\sigma-代数是 XX 的幂集 2X{A:AX}2^X\coloneqq\{A:A\subset X\}

σ\sigma-代数是一个代数也是一个 λ\lambda系,它对集合的交集、并集、差集、可数交集、可数并集运算都是封闭的。

七个集合系之间由宽松到严紧的顺序(集合的集合就是集合系,比如为了建立测度,必须确定出一些可测集,而这些可测集的全体就构成一个集合系):
  π\pi\to 半环 \to\to\to σ\sigma域;
  单调系 \to λ\lambda\to σ\sigma域。
这些集合系的核心是 σ\sigma域,其成员就是可测集,我们最终是要在 σ\sigma域上建立测度。非空集合 XX 和它上面的一个 σ\sigmaF\mathcal F 放在一起写成的 (X,F)(X,\mathcal F) 将称为可测空间

首先我们得知道,为啥在概率空间三要素中 (Ω,F,P)(\Omega,\mathcal F,P) 要有 F\mathcal F 并且 F\mathcal F 必须是 σ\sigma-域。最重要的就是这三者的定义:

  1. Ω\Omega-Sample space 样本空间,试验中所有可能结果的集合。(注:每个结果需要互斥,所有可能结果必须被穷举)
  2. F\mathcal F-Set of events 事件集合,是 Ω\Omega 的一些子集构成的集合。(注意,这个集合的每个元素也是集合,所以描述中直接写1,2,3,4 是不对的,应该是{1},{2},{3}等),并且它需要满足以下三点特性(也就是必须是σ\sigma-field):
    1. ΦF\Phi\in\mathcal F (也就是必须包含不可能事件);
    2. 如果 EFE\in\mathcal FEcFE^c\in\mathcal F ;
    3. 如果 E1E_{_1}E2E_{_2}\cdotsEiFE_{_i}\in\mathcal F ,那么 i=1EiF\cup^{\infty}_{_{i=1}}E_{_i}\in\mathcal F(可列可加和)。
  3. P\mathcal P-Probability measure 概率测度(或概率),描述一次随机试验中被包含在 F\mathcal F 中的所有事件的可能性。并且它碰巧也需要满足三点特性:
    1. 0P(E)10\le P(E)\le1 (实际限制了总测度为 11 );
    2. P(Ω)=1P(\Omega)=1 (包含样本空间且概率为 11 );
    3. 如果 E1E_{_1}E2E_{_2}\cdotsEiE_{_i} 是互斥事件,那么 P(i=1Ei)=i=1P(Ei)P(\cup^{\infty}_{_{i=1}}E_{_i})=\sum^{\infty}_{i=1}P(E_{_i})

不难看出

  1. P:FR\mathcal P:\mathcal F\to R 也就是我们习惯意义上的概率似乎是定义在 Ω\Omega 上的,然而概率里面的 P\mathcal P 却是定义在 F\mathcal F 上的函数;
  2. F\mathcal F 的第1、2点可以推出 ϕc=ΩF\phi^c=\Omega\in\mathcal F ,它与 F\mathcal F 的第2点对应;
  3. F\mathcal F 的第3点和 P\mathcal P 的第3点对应;
  4. P\mathcal P 相对于 F\mathcal F 就多了个“总测度为 11 ”,其他几乎一一对应。

如果一辆车在0点到1点的任何时间都可以到达,这个时候 Ω\Omega 有无穷多个,并且“不可数”,我们发现没有办法对任何一个结果进行概率的分配。这个时候会很自然地写出来的概率表达式

[x1,x2](0x1x21) , P([x1,x2])=x2x1\forall [x_{_1},x_{_2}](0\le x_{_1}\le x_{_2}\le 1)\ ,\ P([x_{_1},x_{_2}])=x_{_2}-x_{_1}

其实是建立在上述表达式中的这样的一个 F\mathcal F 和对应的 P\mathcal P 上。

总得来说

  1. 我们现代的概率与经典概率不同,我们的概率是定义在一群符合某些条件的事件上的。而经典概率是定义在不同结果上的;
  2. 概率空间中的 P\mathcal P 是定义在 F\mathcal F 上的函数。 F\mathcal FP\mathcal P 各个性质几乎完全相对应,其实构建 F\mathcal F 实际上是为了让我们得到一个自洽的体系。因为面对某些“不可数”的概率空间,经典概率理论已经不太够了。

备注3.2(适当的与表示独立的学习^{^*} 在前面的定义中,我们要求算法将从 H\mathcal H 返回一个假设,在某些情况下,H\mathcal H 是集合 H\mathcal H^\prime 的子集,损失函数可以自然地扩展为从 H×Z\mathcal H^\prime\times Z 到实数的函数。在这种情况下,我们可以允许算法返回一个假设 hHh^\prime\in\mathcal H^\prime ,只要它满足 LD(h)minhHLD(h)+ϵL_{_\mathcal D}(h^\prime)\le\min_{_{h\in\mathcal H}}L_{_D}(h)+\epsilon 。允许算法从 H\mathcal H^\prime 输出一个假设被称为表征独立 学习,而当算法必须从 H\mathcal H 输出一个假设时,就会发生适当的学习。表征独立学习有时被称为“不适当的学习”,尽管在表征独立学习中没有什么不适当的。

3.3    概要

在本章中,我们定义了主要的形式化的学习模型——PAC 学习。 基本模型依赖于可实现性假设,而不可知变体不会对示例的潜在分布施加任何限制。 我们还将 PAC 模型推广到任意损失函数。 我们有时会将最通用的模型简称为 PAC 学习,省略“不可知”前缀,让读者从上下文中推断出潜在的损失函数是什么。 当我们想强调我们正在处理原始 PAC 设置时,我们会提到可实现性假设成立。 在第 7 章中,我们将讨论可学性的其他概念。

3.4    参考书目注释

我们对具有一般损失函数的不可知PAC学习的最一般的定义遵循弗拉基米尔·瓦普尼克和阿列克谢·切沃嫩基斯的工作(瓦普尼克&切沃嫩基斯1971)。特别是,我们遵循瓦普尼克的一般学习环境(瓦普尼克1982,瓦普尼克1992,瓦普尼克1995,瓦普尼克1998)。
       PAC学习是由Valiant (1984)引入的。Valiant 因引入PAC模型而被评为2010年图灵奖得主。Valiant 的定义要求样本复杂度为关于 1ϵ\frac1\epsilon1δ\frac1{_\delta} 以及在类中假设的表示大小(也参见Kearns & Vazirani (1994))的多项式。正如我们将在第6章中看到的,如果一个问题完全是PAC可学习的,那么样本复杂度多项式依赖于 1ϵ\frac1\epsilonlog(1δ)\log(\frac1{_\delta}) 。Valiant 的定义还要求学习算法的运行时间在这些量中是多项式的。相比之下,我们选择区分学习的统计方面和学习的计算方面。我们将在后面的第8章中详细说明计算方面,在这里我们将介绍Valiant 的完整PAC学习模型。出于解释的原因,我们使用术语PAC学习,即使我们忽略了学习的运行时间方面。最后,不可知PAC学习的形式化是由于Haussler (1992)。

3.5    习题

1. 样本复杂度的单调性:设 H\mathcal H 为二元分类任务的假设类。假设 H\mathcal H 是PAC可学的,其样本复杂度由 mH(,)m_{_{\mathcal H}}(\cdot,\cdot) 给出。证明 mHm_{_{\mathcal H}} 关于每个参数都是单调非递增的。也就是说,证明给定的 δ(0,1)\delta\in (0,1) ,并且给定0<ϵ1ϵ2<10<\epsilon_{_1}\le\epsilon_{_2}\lt1,我们有 mH(ϵ1,δ)mH(ϵ2,δ)m_{_{\mathcal H}}(\epsilon_{_1},\delta)\ge m_{_{\mathcal H}}(\epsilon_{_2},\delta) 。类似的,证明给定 ϵ(0,1)\epsilon\in(0,1) ,并且给定 0<δ1δ2<10\lt\delta_{_1}\le\delta_{_2}\lt1 ,我们有 mH(ϵ,δ1)mH(ϵ,δ2)m_{_{\mathcal H}}(\epsilon,\delta_{_1})\ge m_{_{\mathcal H}}(\epsilon,\delta_{_2})

解: 证明(几乎)直接来自定义。我们将证明样本复杂度在精度参数 ϵ\epsilon 中单调递减。样本复杂度在置信参数 δ\delta 中单调递减的证明是类似的。
D\mathcal D 表示 X\mathcal X 上的未知分布,设 fHf\in\mathcal H 为目标假设。用 AA 表示一种算法,它以样本复杂度 mH(,)m_{_\mathcal H}(\cdot,\cdot) 学习 H\mathcal H 。固定一些 δ(0,1)\delta\in(0,1) 。假设 0<ϵ1ϵ210<\epsilon_{_1}\le\epsilon_{_2}\le 1 。我们需要证明 m1=def mH(ϵ1,δ)mH(ϵ2,δ)=defm2m_{_1}\overset{\text{def}}{=}\ m_{_\mathcal H}(\epsilon_{_1},\delta)\ge m_{_\mathcal H}(\epsilon_{_2},\delta)\overset{\text{def}}{=}m_{_2} 。给定大小为 mm1m\ge m_{_1} 的独立同分布的训练序列,我们至少有 1δ1-\delta 的概率,AA 返回如下的假设 hh

L(D,f)(h)ϵ1ϵ2 .L_{_{(\mathcal D,f)}}(h)\le\epsilon_{_1}\le\epsilon_{_2}\ .

通过 m2m_{_2} 的极小性,我们得出 m2m1m_{_2}\le m_{_1} 的结论。


2.X\mathcal X 为离散域,设 HSingleton={hz:zX}{h}\mathcal H_{_\text{Singleton}}=\{h_{_z}:z\in \mathcal X\}\cup\{h^{^−}\} , 其中对于每个 zXz\in \mathcal Xhzh_{_z} 是由 hz(x)=1h_{_z}(x)=1(如果 x=zx=z )和 hz(x)=0h_{_z}(x)=0(如果 xzx\ne z )定义的函数。hh^{^-} 只是一个将所有示例都标记为负示例的假设,即,xX\forall x\in \mathcal Xh(x)=0h^{^-}(x)=0 。此处的可实现性假设意味着,正确的假设 ff 可能将域中的所有示例都标记为负示例,也可能有一个例外。

  1. 描述在可实现设置中实现学习 HSingleton\mathcal H_{_\text{Singleton}} 的ERM规则的算法。
  2. 证明 HSingleton\mathcal H_{_\text{Singleton}} 是PAC可学的。提供样本复杂度的上限。

解:

  1. 我们提出以下算法。如果在 SS 中出现正的实例 x+x_+ ,则返回(正确的)假设 hx+h_{_{x_{_+}}} 。如果 SS 不包含任何正实例,算法将返回全负假设。很明显,这个算法是一个ERM。
  2. ϵ(0,1)\epsilon\in(0,1) ,并固定 X\mathcal X 上的分布 D\mathcal D 。如果正确的假设是 hh^- ,那么我们的算法返回一个完美假设。假设现在假设存在唯一的正实例 x+x_+ 。很明显,如果 x+x_+ 出现在训练序列 SS 中,我们的算法会返回一个完美的假设。再者,如果 D[{x+}]ϵ\mathcal D[\{x_+\}] \le\epsilon 那么无论如何,返回的假设最多有泛化误差 ϵ\epsilon(概率为 11 )。因此,只剩下 D[{x+}]>ϵ\mathcal D[\{x_+\}]>\epsilon 但是 x+x_+ 没有出现在 SS 中的情况,用 FF 表示这个事件。则
PSxDm[F](1ϵ)memϵ .\underset{S\vert_{_x}\sim\mathcal D^{^m}}{\mathbb P}[F]\le(1-\epsilon)^{^m}\le e^{^{-m\epsilon}}\ .

    因此,HSingleton\mathcal H_{_\text{Singleton}} 是PAC可学的,其样本复杂度有界于:

mH(ϵ,δ)log(1δ)ϵ .m_{_\mathcal H}(\epsilon,\delta)\le\left\lceil \frac{\log(\frac1{_\delta})}{\epsilon}\right\rceil\ .

    (此时在 D[{x+}]>ϵ\mathcal D[\{x_+\}]>\epsilon 但是 x+x_+ 没有出现在 SS 中的情况下 HSingleton=1\vert\mathcal H_{_\text{Singleton}}\vert=1


3.X=R2\mathcal X=\mathbb R^{^2}Y={0,1}\mathcal Y=\{0,1\} ,设 H\mathcal H 为平面上的同心圆类,即 H={hr:rR+}\mathcal H=\{h_{_r}:r\in\mathbb R_{_+}\} ,其中 hr(x)=1[xr]h_{_r}(x)=\mathbb 1_{_{[||x||\le r]}} 。证明 H\mathcal H 是PAC可学的(假设可实现),其样本复杂度有界于:

mH(ϵ,δ)log(1δ)ϵ .m_{_\mathcal H}(\epsilon,\delta)\le\left\lceil \frac{\log(\frac1{_\delta})}{\epsilon}\right\rceil\ .

解: 考虑ERM算法 AA ,它给定一个训练序列 S=((xi,yi))i=1mS=\big((\textbf x_{_i},y_{_i})\big)^m_{_{i=1}} ,返回对应于包含所有正实例的“最紧”圆的假设 h^\hat h 。用 r^\hat r 表示这个假设的半径。假设可实现性成立,设 hh^* 做一个泛化误差为 00 的圆。用 rr^* 表示它的半径。
ϵ,δ(0,1)\epsilon,\delta\in(0,1) ,令 rˉr\bar r\le r^* 是一个使得 DX({X:rˉXr})=ϵ\mathcal D_{_\mathcal X}(\{X:\bar r\le||X||\le r^*\})=\epsilon 的标量。定义 E={xR2rˉXr}E=\{\textbf x\in\mathbb R^2:\bar r\le||X||\le r^*\}LD(hS)ϵL_{_\mathcal D}(h_{_S})\ge\epsilon 的概率(关于抽取 SS )上界是 SS 中没有一点(正实例点)属于 EE 的概率。这一事件发生的概率上界由下式给出

(1ϵ)meϵm .(1-\epsilon)^m\le e^{-\epsilon m}\ .

样本复杂度的期望的界限要求 eϵmδe^{-\epsilon m}\le\delta ,由上一题答案易知得证。
(因为ERM算法 AA 返回对应于包含所有正实例的“最紧”圆的假设 h^\hat h ,所以此时 H=1\vert\mathcal H\vert=1


4. 在这个问题中,我们研究如下定义的布尔连接词(Boolean conjunctions)的假设类。实例空间是 X={0,1}d\mathcal X=\{0,1\}^{d} ,标签集是 Y={0,1}\mathcal Y=\{0,1\} 。变量 x1,,xdx_{_1},\dots,x_{_d} 上的文字(literal)是一个简单的布尔函数,对于一些 i[d]i\in [d] ,形式为 f(x)=xif(x)=x_if(x)=1xif(x)=1-x_{_i} 。我们使用符号 xi\overline x_{_i} 作为 1xi1-x_{_i} 的简写。连词是文字的(任何)乘积。在布尔逻辑中,乘积用符号 \wedge 表示。例如,函数 h(x)=x1(1x2)h(x)=x_{_1}\cdot (1-x_{_2}) 可写为 x1x2x_1\wedge \overline x_{_2}
  我们考虑到变量 dd 上的所有连接词的假设类。空连接词被解释为全正假设(即,对所有 x\textbf x 返回 h(x)=1h(\textbf x)=1 的函数)。连接词 x1x1x_{_1}\wedge \overline x_{_1}(以及类似的,任何涉及文字及其否定的连词)这种情况被允许出现并被解释为全负假设(即,所有 x\textbf x 返回 h(x)=0h(\textbf x)=0 的连词)。我们假设可实现性成立:即,我们假设存在生成标签的布尔连接。因此,每个示例 (x,y)X×Y(\textbf x,y)\in \mathcal X \times \mathcal Ydd 个布尔变量 x1,,xdx_{_1},\dots,x_{_d} 及其真实值( 00 表示假,11 表示真)组成。
  例如,设 d=3d=3 ,假设正确的连词为 x1x2x_{_1}\wedge\overline x_{_2} 。然后,训练集 SS 可能包含以下实例:

((1,1,1),0) ,((1,0,1),1) ,((0,1,0),0) ,((1,0,0),1) .\big((1,1,1),0\big)\ ,\big((1,0,1),1\big)\ ,\big((0,1,0),0\big)\ ,\big((1,0,0),1\big)\ .

  证明 dd 变量上所有连接的假设类都是PAC可学的,并给出其样本复杂度的界。提出一种实现ERM规则的算法,其运行时间为关于 dmd\cdot m 的多项式。

解: 我们首先观察到 H\mathcal H 是有限的。让我们精确计算它的大小。每个假设都是通过决定每个变量 xix_{_i} 而确定的,无论 xix_{_i}xˉi\bar x_{_i} 或该变量没有以任何形式出现在相应的连词中的。因此,H=3d\vert\mathcal H\vert=3^d 。我们得出 H\mathcal H 是PAC可学的,它的样本复杂度有界于

mH(ϵ,δ)dlog(3)+log(1δ)ϵ .m_{_{\mathcal H}}(\epsilon,\delta)\le\left\lceil\frac{d\log(3)+\log(\frac{1}{_\delta})}{\epsilon}\right\rceil\ .

让我们描述一下我们的学习算法。我们定义 h0=x1xˉ1xdxˉdh_{_0}=x_{_1}\cap\bar x_{_1}\cap\dots\cap x_{_d}\cap\bar x_{_d} (这里“ \wedge\coloneqq\cap ”)。注意 h0h_{_0} 是一个总是为负的假设。令 ((a1y1),,(amym))\big((\textbf a^1,y^1),\dots,(\textbf a^m,y^m)\big) 是大小为 mm 的独立同分布训练序列。由于我们无法从负样本(标签为 00 的样本)中产生任何信息,我们的算法忽略了它们。对于每个正样本 aa (标签为 11 的样本),我们从 hih_i 中删除 aa 中缺少的所有文字。 也就是说,如果 ai=1a_{_i}=1 ,我们从 hh 中删除 xˉi\bar x_{_i} ,如果 ai=0a_{_i}=0 ,我们从 hih_{_i} 中删除 xix_{_i} 。 最后,我们的算法返回 hmh_{_m}

通过构建和可实现性,hih_{_i} 明确地标记所有 a1,,ai\textbf a^1,\dots,\textbf a^i 中的正样本。出于同样的原因, hih_{_i} 中的文字集包含目标假设中的文字集。因此, hih_{_i} 正确地分类了 a1,,ai\textbf a^1,\dots,\textbf a^i 中的负样本元素。这意味着 hmh_{_m} 是一个ERM。

由于算法需要线性时间(就维度 dd 而言)来处理每个示例,因此运行时间以 O(md)O(m·d) 为界。


5.X\mathcal X 是一个域,D1,D2,,Dm\mathcal D_{_1},\mathcal D_{_2},\dots,\mathcal D_{_m}X\mathcal X 上的分布序列。设 H\mathcal HX\mathcal X 的二元分类器的一个有限假设类,令 fHf\in \mathcal H 。假设我们得到了一个包含 mm 个实例的样本集 SS ,其中这些实例是相互独立,但不是同分布的;第 ii 个实例是从 Di\mathcal D_{_i} 中采样的,然后将 f(xi)f(\textbf x_{_i}) 的值赋给 yiy_{_i} 。用 \overline\mathcal D_{_m} 表示平均值,即 \overline\mathcal D_m=\frac{(\mathcal D_{_1}+\cdots+\mathcal D_{_m})}{m}.
固定精度参数 ϵ(0,1)\epsilon\in (0,1) ,证明

P[hH  s.t. L(Dm,f)(h)>ϵ  and  L(S,f)(h)=0]Heϵm  .\mathbb P\left[\exist h \in\mathcal H\ \ s.t.\ L_{(\overline {\mathcal D}_{_m},f)}(h)>\epsilon \ \ and\ \ L_{(S,f)}(h)=0\right]\leq\vert\mathcal H\vert e^{-\epsilon m}\ \ .

      提示:使用几何算术平均不等式。

解: 固定某个 hh 使得 L_{(\bar\mathcal D_{_m},f)}(h)>\epsilon ,即

PXD1[h(X)f(X)]++PXDm[h(X)f(X)]m>ϵ  .\frac{\mathbb P_{X\sim\mathcal D_{_1}}[h(X)\neq f(X)]+\dots+\mathbb P_{X\sim\mathcal D_{_m}}[h(X)\neq f(X)]}{m}>\epsilon\ \ .

根据定义,

PXD1[h(X)=f(X)]++PXDm[h(X)=f(X)]m<1ϵ  .\frac{\mathbb P_{X\sim\mathcal D_{_1}}[h(X)=f(X)]+\dots+\mathbb P_{X\sim\mathcal D_{_m}}[h(X)=f(X)]}{m}<1-\epsilon\ \ .

现在我们将 hhSS 一致(即,LS(h)=0L_S(h)=0 )的概率限定为:

PSΠi=1mDi[LS(h)=0]=i=1mPXDi[h(X)=f(X)]=((i=1mPXDi[h(X)=f(X)])1m)m(i=1mPXDi[h(X)=f(X)]m)m<(1ϵ)meϵm\begin{aligned} \underset{_{S\sim\Pi^{^m}_{_{i=1}}\mathcal D_{_i}}}{\mathbb P}[L_{_S}(h)=0] &=\prod^m_{i=1}\underset{X\sim\mathcal D_{_i}}{\mathbb P}[h(X)=f(X)]\\ &=\left(\big(\prod^m_{i=1}\underset{X\sim\mathcal D_{_i}}{\mathbb P}[h(X)=f(X)]\big)^{\frac{1}{m}}\right)^m\\ &\le\left(\frac{\sum^m_{i=1}\mathbb P_{_{X\sim\mathcal D_i}}[h(X)=f(X)]}{m}\right)^m\\ &<(1-\epsilon)^m\\ &\le e^{-\epsilon m} \end{aligned}

第一个不等式是几何-算术平均不等式。应用union bound,我们得到存在与 SS 一致的 hHh\in\mathcal HL_{(\bar\mathcal D_m,f)}(h)>\epsilon 的概率最大为 Heϵm|\mathcal H|e^{-\epsilon m}


6.H\mathcal H为二元分类器的假设类。证明若 H\mathcal H 是不可知论PAC可学的,那么 H\mathcal H 也是PAC可学的。此外,如果 AAH\mathcal H 的成功的不可知论PAC学习器,那么 AA 也是 H\mathcal H 的成功的PAC学习器。

解: 假设 H\mathcal H 是不可知论的PAC可学的,并令 AA 是学习 H\mathcal H 的学习算法,样本复杂度为 mH(,)m_\mathcal H(·,·) 。 我们证明 H\mathcal H 利用 AA 是 PAC 可学的。
Df\mathcal D、f 分别是 X\mathcal X 上的(未知)分布和目标函数。 我们可以不失一般性地假设 D\mathcal DX×{0,1}\mathcal X \times \{0,1\} 上的联合分布,其中 yyxx 条件下的概率是由 ff 确定的。 由于我们假设可实现性成立,则有 infhHLD(h)=0\inf_{h\in\mathcal H}L_{\mathcal D}(h) = 0 。令 ϵ,δ(0,1)\epsilon,\delta\in(0,1) 。然后,对于每个正整数 mmH(0,1)m \ge m_{_{\mathcal H}}(0, 1) ,如果我们为 AA 配备一个由 mm 个用 ff 标记的实例组成的训练集 SS 。然后以至少 1δ1-\delta 的概率(在 SxS|_{x} 的选择上),它返回一个假设 hh

LD(h)infhH LD(h)+ϵ=0+ϵ=ϵ .\begin{aligned} L_{_\mathcal D}(h) &\le\underset{h^{^{\prime}}\in\mathcal H}{\inf}\ L_{_{\mathcal D}}(h^{\prime})+\epsilon\\ &=0+\epsilon\\ &=\epsilon\ . \end{aligned}

  1. (*)贝叶斯最优预测器: 证明对于每个概率分布 D\mathcal D,贝叶斯最优预测器 fDf_{_{\mathcal D}} 是最优的,在这个意义上,对于从 X\mathcal X{0,1}\{0,1\} 的每个分类器 ggLD(fD)LD(g)L_{_{\mathcal D}}(f_{_{\mathcal D}})\leq L_{_{\mathcal D}}(g)

    解:xXx\in\mathcal X ,设 αx\alpha_{_x} 是给定 xx 后预测器给出一个正标签的条件概率,我们有

    P[fD(X)yX=x]=1[αx12]P[Y=0X=x]+1[αx<12]P[Y=1X=x]=1[αx12](1αx)+1[αx<12]αx=min{αx,1αx}\begin{aligned} \mathbb P[f_{_\mathcal D}(X)\neq y|X=x] &=1_{[\alpha_{_x}\ge\frac{1}{_2}]}\cdot\mathbb P[Y=0|X=x]+1_{[\alpha_{_x}<\frac{1}{_2}]}\cdot\mathbb P[Y=1|X=x]\\ &=1_{[\alpha_{_x}\ge\frac{1}{_2}]}\cdot(1-\alpha_{_x})+1_{[\alpha_{_x}<\frac{1}{_2}]}\cdot\alpha_{_x}\\ &=\min\{\alpha_{_x},1-\alpha_{_x}\} \end{aligned}

    gg 是一个从 X\mathcal X{0,1}\{0,1\} 的分类器(正如我们将看到的,gg 可能是不确定的),有

    P[g(X)YX=x]=P[g(X)=0X=x]P[Y=1X=x]+P[g(X)=1X=x]P[Y=0X=x]=P[g(X)=0X=x]αx+P[g(X)=1X=x](1αx)P[g(X)=0X=x]min{αx,1αx}+P[g(X)=1X=x]min{αx,1αx}=min{αx,1αx}  ,\begin{aligned} \mathbb P[g(X)\neq Y|X=x] &=\mathbb P[g(X)=0|X=x]\cdot\mathbb P[Y=1|X=x]+\mathbb P[g(X)=1|X=x]\cdot\mathbb P[Y=0|X=x]\\ &=\mathbb P[g(X)=0|X=x]\cdot\alpha_x+\mathbb P[g(X)=1|X=x]\cdot(1-\alpha_x)\\ &\ge\mathbb P[g(X)=0|X=x]\cdot\min\{\alpha_x,1-\alpha_x\}+\mathbb P[g(X)=1|X=x]\cdot\min\{\alpha_x,1-\alpha_x\}\\ &=\min\{\alpha_x,1-\alpha_x\}\ \ , \end{aligned}

    下面的陈述是因为以上事实对于每个 xXx\in\mathcal X 都是正确的。更正式地说,根据总期望定律,

    LD(fD)=E(x,y)D[1[fD(x)y]]=ExDX[EyDYx[1[fD(x)y]X=x]]P[fD(X)yX=x]=ExDX[αx]ExDX[EyDYx[1[g(x)y]X=x]]P[g(X)YX=x]=LD(g)  .\begin{aligned} L_{_\mathcal D}(f_{_\mathcal D}) &=\mathbb E_{_{(x,y)\sim\mathcal D}}\big[1_{[f_{_\mathcal D}(x)\neq y]}\big]\\ &\\ &=\mathbb E_{_{x\sim\mathcal D_{_X}}}\underbrace{\left[\mathbb E_{_{y\sim\mathcal D_{_{Y|x}}}}[1_{[f_{_\mathcal D}(x)\neq y]}|X=x]\right]}_{_{_{\mathbb P[f_{_\mathcal D}(X)\neq y|X=x]}}}\\ &=\mathbb E_{_{x\sim\mathcal D_X}}[\alpha_x]\\ &\\ &\le\mathbb E_{_{x\sim\mathcal D_{_X}}}\underbrace{\left[\mathbb E_{_{y\sim\mathcal D_{_{Y|x}}}}[1_{[g(x)\neq y]}|X=x]\right]}_{_{_{\mathbb P[g(X)\neq Y|X=x]}}}\\ &=L_{_\mathcal D}(g)\ \ .\\ &\end{aligned}

8.(*) 如果对于所有样本 S(X×{0,1})mS\in(\mathcal X\times\{0,1\})^m 都有

LD(A(S))LD(B(S))L_{_\mathcal D}(A(S))\leq L_{_\mathcal D}(B(S))

那么我们说学习算法 AA 在某些概率分布 D\mathcal D 下比学习算法 BB 好。如果一个学习算法 AA 对于在 X×{0,1}\mathcal X \times\{0,1\} 上的所有概率分布 D\mathcal D 都比 BB 好,那么我们说算法 AA 比算法 BB 好。

  1. 概率标签预测器是为每个域点 xx 分配概率值 h(x)[0,1]h(x)\in [0,1] 的函数,确定预测标签为 11 的概率。也就是说,给定一个 hh 和一个输入 xxxx 的标签是通过抛一枚带有正面向上偏差 h(x)h(x) 的硬币来预测的,如果硬币朝正面朝上,则预测值为 11 。形式上,我们将概率标签预测器定义为一个函数 h:X[0,1]h:\mathcal X\rightarrow[0,1] 。这样的 hh 在示例 (x,y)(x,y) 上的损失定义为 h(x)y|h(x)-y| ,这正是 hh 的预测不等于 yy 的概率。注意,如果 hh 是确定的,即返回 {0,1}\{0,1\} 中的值,则 h(x)y=1[h(x)y]\vert h(x)-y\vert=1_{[h(x)\neq y]}
    证明对于 X×{0,1}\mathcal X \times\{0,1\} 上的每个数据生成分布 D\mathcal D ,贝叶斯最优预测器具有最小的风险(关于损失函数 (h,(x,y))=h(x)y\ell(h,(x,y))=|h(x)-y| ,在所有可能的标签预测器中,包括概率预测器)。
  2. X\mathcal X 是一个(定义)域,{0,1}\{0,1\} 是一组标签。证明对于 X×{0,1}\mathcal X\times\{0,1\} 上每个分布 D\mathcal D ,都存在一个学习算法 ADA_{_\mathcal D} ,该算法优于 D\mathcal D 的任何其他学习算法。
  3. 证明对于每种学习算法 AA ,都存在一个概率分布 D\mathcal D 和一个学习算法 BB ,使得 AA 关于 D\mathcal D 不优于 BB解:
  4. 这在前面的练习中已经证明。
  5. 我们在前面的练习中证明,对于每个分布 D\mathcal D,贝叶斯最优预测器 fDf_{_\mathcal D} 关于 D\mathcal D 是最优的。
  6. 选择任意分布 D\mathcal D 。那么 AAD\mathcal D 上并不比 fDf_{_\mathcal D} 好。

9. 考虑到PAC模型的一个变体,其中有两个示例预言机(two example oracles):一个生成正例,一个生成负例,两者都是根据 X\mathcal X 上的基础分布 D\mathcal D 生成的。形式上,给定一个目标函数 f:X{0,1}f:\mathcal X\rightarrow\{0,1\} ,对于每个 AX+A\subset\mathcal X^+ ,令 D+\mathcal D^+ 为关于 X+={xX:f(x)=1}\mathcal X^+=\{x\in\mathcal X:f(x)=1\}D+(A)=D(A)D(X+)\mathcal D^+(A)=\frac{\mathcal D (A)}{ \mathcal D(\mathcal X^+)} 定义的分布。同样,DD^- 是由 D\mathcal D 引出的关于 X\mathcal X^- 上的分布。

  在双预言机模型(the two-oracle model)中的PAC可学性定义与PAC可学性标准定义相同,只是双预言机学习器可以访问 mH+(ϵ,δ)m^+_{\mathcal H}(\epsilon,\delta) 个来自 D+D^+ 的独立同分布样本和 m(ϵ,δ)m^-(\epsilon,\delta) 个来自 DD^- 的独立同分布样本。学习器的目标是输出使得至少有 1δ1-\delta 的概率(关于两个训练集的选择,以及学习算法做出的非确定性决策)有 L(D+,f)(h)ϵL_{(D^+,f)}(h)\le\epsilon 以及 L(D,f)(h)ϵL_{(D^-,f)}(h)\le\epsilonhh

  1. (*)证明如果 H\mathcal H 是PAC可学的(在标准的单预言机模型中),那么 H\mathcal H 在双预言机模型中是PAC可学习的。
  2. (**)将 h+h^+ 定义为总是为正的假设,并将 hh^- 定义为总是为负的假设。假设 h+h^+hHh^-\in\mathcal H。证明如果 H\mathcal H 在双预言机模型中是PAC可学的,那么 H\mathcal H 在标准的单预言机模型中是PAC可学的。

解: 1、假设 H\mathcal H 在单预言机模型中是PAC可学的。假设 AA 是一个学习算法,它学习并用 mHm_{_\mathcal H} 表示决定其样本复杂度的函数。我们证明 H\mathcal H 在双预言机模型中也是PAC可学习的。
D\mathcal DX×{0,1}\mathcal X\times\{0,1\} 上的分布。注意,从具有相同可证明性的否定和肯定预言中抽取点相当于从分布 D\mathcal D' 中获得独立同分布的样本,该分布为正样本和负样本提供了相同的概率。形式上,对于每个子集 EXE\subseteq\mathcal X 我们有:

D[E]=12D+[E]+12D[E]\mathcal D'[E]=\frac{1}{2}\mathcal D^+[E]+\frac{1}{2}\mathcal D^-[E]

因此, D[{x:f(x)=1}]=D[{x:f(x)=0}]=12\mathcal D'[\{x:f(x)=1\}]=\mathcal D'[\{x:f(x)=0\}]=\frac{1}{2}。如果我们让 AA 访问根据 DD' 绘制的训练集,其大小为 mH(ϵ/2,δ)m_\mathcal H(\epsilon/2,\delta) ,那么概率至少为 1δ1−\deltaAA 返回 hh 和:

ϵ/2L(D,f)(h)=PxD[h(x)f(x)]=PxD[f(x)=1,h(x)=0]+PxD[f(x)=0,h(x)=1]=PxD[f(x)=1]PxD[h(x)=0f(x)=1]+PxD[f(x)=0]PxD[h(x)=1f(x)=0]=PxD[f(x)=1]PxD[h(x)=0f(x)=1]+PxD[f(x)=0]PxD[h(x)=1f(x)=0]=12L(D+,f)(h)+12L(D,f)(h).\begin{aligned} \epsilon/2\ge L_{(\mathcal D',f)}(h) &=\underset{x\sim\mathcal D'}{\mathbb P}[h(x)\neq f(x)]\\ &=\underset{x\sim\mathcal D'}{\mathbb P}[f(x)=1,h(x)=0]+\underset{x\sim\mathcal D'}{\mathbb P}[f(x)=0,h(x)=1]\\ &=\underset{x\sim\mathcal D'}{\mathbb P}[f(x)=1]\cdot\underset{x\sim\mathcal D'}{\mathbb P}[h(x)=0|f(x)=1]+\underset{x\sim\mathcal D'}{\mathbb P}[f(x)=0]\cdot\underset{x\sim\mathcal D'}{\mathbb P}[h(x)=1|f(x)=0]\\ &=\underset{x\sim\mathcal D'}{\mathbb P}[f(x)=1]\cdot\underset{x\sim\mathcal D}{\mathbb P}[h(x)=0|f(x)=1]+\underset{x\sim\mathcal D'}{\mathbb P}[f(x)=0]\cdot\underset{x\sim\mathcal D}{\mathbb P}[h(x)=1|f(x)=0]\\ &=\frac{1}{2}\cdot L_{(\mathcal D^+,f)}(h)+\frac{1}{2}\cdot L_{(\mathcal D^-,f)}(h). \end{aligned}

这意味着至少有 1δ1−\delta 的概率,有

L(D+,f)(h)ϵ以及L(D,f)(h)ϵL_{(\mathcal D^+,f)}(h)\le\epsilon\quad 以及\quad L_{(\mathcal D^-,f)}(h)\le\epsilon

我们对双预言机模型中PAC可学性的定义是满意的。我们通过用 mH(ϵ/2,δ)m_\mathcal H(\epsilon/2,\delta) 来连接 mH+(ϵ,δ)m^+_\mathcal H(\epsilon,\delta)mH(ϵ,δ)m^-_\mathcal H(\epsilon,\delta)

2、假设H在双预言机模型中是PAC可学习的,假设 AA 是学习 H\mathcal H 的算法,我们证明了 H\mathcal H 在标准模型中也是PAC可学的。
D\mathcal DX\mathcal X 上的分布,用 ff 表示目标假设。设 α=D[{x:f(x)=1}]\alpha=\mathcal D[\{x:f(x)=1\}] 。设 ϵ,δ(0,1)\epsilon,\delta\in(0,1) 。根据我们的假设,那么存在 m+=defmH+(ϵ,δ/2),m=defmH(ϵ,δ/2)m^+\overset{\text{def}}{=}m^+_\mathcal H(\epsilon,\delta/2) , m^-\overset{\text{def}}{=}m^-_\mathcal H(\epsilon,\delta/2) s.t. 如果我们给 AA 配备 m+m^+ 个从 D+D^+ 中抽取独立同分布的例子和 mm^- 个从 DD 中抽取独立同分布的例子,那么,在至少 1δ/21-\delta/2 的概率下, AA 将返回 hh 和:

L(D+,f)(h)ϵL(D,f)(h)ϵL_{(\mathcal D^+,f)}(h)\le\epsilon\wedge L_{(\mathcal D^-,f)}(h)\le\epsilon

我们的算法 BB 根据 D\mathcal D 抽取 m=max{2m+/ϵ,2m/ϵ,8log(4/δ)ϵ}m=\max\{2m^+/\epsilon,2m^-/\epsilon,\frac{8\log(4/\delta)}{\epsilon}\} 个样本。如果有少于 m+m^+ 正数的例子, BB 返回 hh^− 。否则,如果有少于 mm^− 负数的例子, BB 返回 h+h^+ 。否则, BB 对样本运行 AA ,返回 AA 返回的假设。首先,我们观察到,如果样本包含 m+m^+ 正实例和 mm^− 负实例,那么还原到双预言机模型是有效的。更准确地说,在概率至少为 1δ/21−\delta/2 的情况下, AA 返回 hh 和:

L(D+,f)(h)ϵL(D,f)(h)ϵ.L_{(\mathcal D^+,f)}(h)\le\epsilon\wedge L_{(\mathcal D^-,f)}(h)\le\epsilon.

因此,概率至少为 1δ/21−\delta/2 ,算法 BB 返回(相同) hh 和:

L(D,f)(h)=αL(D+,f)(h)+(1α)L(D,f)(h)ϵL_{(\mathcal D,f)}(h)=\alpha\cdot L_{(\mathcal D^+,f)}(h)+(1-\alpha)\cdot L_{(\mathcal D^-,f)}(h)\le\epsilon

我们现在考虑以下情况:

  • 假设两者都是 αϵ\alpha\ge\epsilon 。我们证明了概率至少为 1δ/41−\delta/4 ,该示例包含 m+m^+ 个正实例。对于每个 i=[m]i=\in[m] ,定义指标随机变量 ZiZ_i ,当样本中的第 ii 个元素为正时,其值为1。定义 Z=i=1mZiZ=\sum^m_{i=1}Z_i 为所绘制的正例子的数量。显然, E[Z]=αm\mathbb E[Z]=\alpha m 利用Chernoff界,我们得到:

    P[Z<(112)αm]<emα8.\mathbb P[Z<(1-\frac{1}{2})\alpha m]<e^{^{\frac{-m\alpha}{_8}}}.

    通过选择 mm ,我们得出结论:

    P[Z<m+]<δ/4.\mathbb P[Z<m_+]<\delta/4.

    类似地,如果 1αϵ1-\alpha\ge\epsilon , 则绘制少于 mm^- 个负面示例的概率最多为 δ/4\delta/4 。 如果两个都是 αϵ\alpha\ge\epsilon1αϵ1-\alpha\ge\epsilon ,则根据联合界,以至少 1δ/21−\delta/2 的概率,训练集中至少包含 m+m^+ 个正实例和 mm^− 负实例。正如我们上面提到的,如果是这种情况,那么两预言模型的简化至少有 1δ/21−\delta/2 的可能性。通过应用并界得到了期望的结论。


    Chernoff界

      若 X1,X2,,XnX_{_1} , X_{_2} ,\dots,X_{_n}{0,1}\{0,1\} 上相互独立的随机变量,令 μ=i=1nE[Xi]\mu=\sum^{n}_{i=1}\mathbb E[X_{_i}] ,则

    1.   P[i=1nXi(1+δ)μ][eδ(1+δ)1+δ]μ<eμδ22\mathbb P[\sum^{n}_{i=1}X_{_i}\ge(1+\delta)\mu]\le\big[\frac{e^\delta}{_{(1+\delta)^{^{1+\delta}}}}\big]^\mu<e^{-\mu\cdot\frac{\delta^{^2}}{_2}}
    2.   P[i=1nXi(1δ)μ][eδ(1δ)1δ]μ<eμδ22\mathbb P[\sum^{n}_{i=1}X_{_i}\le(1-\delta)\mu]\le\big[\frac{e^{-\delta}}{_{(1-\delta)^{^{1-\delta}}}}\big]^\mu<e^{-\mu\cdot\frac{\delta^{^2}}{_2}} 证明
    3. 首先,对  tR\forall\ t\in Rt>0t>0 ,有
      P[X>(1+δ)μ]=P[etX>et(1+δ)μ]<E[etX]et(1+δ)μ(Markov不等式)\begin{aligned} \mathbb P[X>(1+\delta)\mu] &=\mathbb P[e^{tX}>e^{t(1+\delta)\mu}]\\ &<\frac{\mathbb E[e^{tX}]}{e^{t(1+\delta)\mu}}\qquad\qquad\qquad(Markov不等式) \end{aligned}
      接着,
      E[etX]=E[etXi]=E[i=1netXi]=i=1nE[etXi]\mathbb E[e^{tX}]=\mathbb E[e^{^{t\sum X_{_i}}}]=\mathbb E[\prod^n_{i=1}e^{tX_{_i}}]=\prod^{n}_{i=1}\mathbb E[e^{tX_{_i}}]
      P[X>(1+δ)μ]<i=1nE[etXi]et(1+δ)μ\mathbb P[X>(1+\delta)\mu]<\frac{\prod^n_{i=1}\mathbb E[e^{tX_{_i}}]}{e^{t(1+\delta)\mu}}
      然后,我们来研究一下 E[etXi]\mathbb E[e^{tX_{_i}}] , 因为 XiX_{_i}pip_{_i} 的可能取 11 ,有 1pi1-p_{_i} 的可能取 00 ,则
      etXi={ etpi的可能 11pi的可能e^{tX_{_i}}=\left\{ \begin{aligned} &\ e^t\qquad p_{_i}的可能\\ &\ 1\qquad 1-p_{_i}的可能 \end{aligned} \right.
      所以
      E[etXi]=piet+1pi=1+pi(et1)\mathbb E[e^{tX_{_i}}]=p_{_i}\cdot e^t+1-p_{_i}=1+p_{_i}\cdot (e^t-1)
      又因为
      1+X<eX1+X<e^X
      X=pi(et1)X=p_{_i}\cdot(e^t-1) 代入上式有
      E[etXi]=1+pi(et1)<e pi(et1)\mathbb E[e^{tX_{_i}}]=1+p_{_i}\cdot(e^t-1)<e^{^{\ p_{_{_i}}\cdot(e^t-1)}}
      所以
      P[X>(1+δ)μ]<i=1nE[etXi]et(1+δ)μ<i=1nepi(et1)et(1+δ)μ  =μ=i=1n  eμ(et1)et(1+δ)μ\mathbb P[X>(1+\delta)\mu]<\frac{\prod^{n}_{i=1}\mathbb E[e^{tX_{_i}}]}{e^{t(1+\delta)\mu}}<\frac{\prod^{n}_{i=1}e^{^{p_{_{_i}}\cdot(e^t-1)}}}{e^{t(1+\delta)\mu}}\ \ {\xlongequal[]{^{\mu=\sum^{n}_{i=1}}}}\ \ \frac{e^{\mu(e^t-1)}}{e^{t(1+\delta)\mu}}
      对上式等号右边求导并令其等于 00
      μetμ(1+δ)=0  t=ln(1+δ)\mu e^t-\mu(1+\delta)=0\ \Rightarrow\ t=\ln(1+\delta)
      t=ln(1+δ)t=\ln(1+\delta) 得到最优值 [eδ(1+δ)1+δ]μ\left[\frac{e^\delta}{_{(1+\delta)^{1+\delta}}}\right]^\mu ,即
      P[X>(1+δ)μ]=P[i=1nXi>(1+δ)μ]<[eδ(1+δ)1+δ]μ\mathbb P[X>(1+\delta)\mu]=\mathbb P[\sum^{n}_{i=1}X_{_i}>(1+\delta)\mu]<\left[\frac{e^\delta}{_{(1+\delta)^{^{1+\delta}}}}\right]^\mu
      同理可得
      P[i=1nXi(1δ)μ][eδ(1δ)1δ]μ\mathbb P[\sum^{n}_{i=1}X_{_i}\le(1-\delta)\mu]\le\left[\frac{e^{-\delta}}{_{(1-\delta)^{^{1-\delta}}}}\right]^\mu
      用麦克劳林展开式将 ln(1δ)\ln(1-\delta) 展开有
      ln(1δ)1δ=(1δ)ln(1δ)=(1δ)(δδ22δ33!+O(δ3))>δ+δ22\begin{aligned} \ln(1-\delta)^{^{1-\delta}} &=(1-\delta)\ln(1-\delta)\\ &=(1-\delta)\left(-\delta-\frac{\delta^{^2}}{2}-\frac{\delta^{^3}}{3!}+O(\delta^{^3})\right)\\ &>-\delta+\frac{\delta^{^2}}{2} \end{aligned}
      所以
      (1δ)(1δ)>eδ+δ22(1-\delta)^{^{(1-\delta)}}>e^{-\delta+\frac{\delta^{^2}}{_2}}
      故有
      P[X<(1δ)μ]<[eδ   eδ+δ22]μ=eμδ22\mathbb P[X<(1-\delta)\mu]<\left[\frac{e^{-\delta}}{\ \ \ e^{^{-\delta+\frac{\delta^{^2}}{_2}}}}\right]^\mu=e^{-\mu\cdot\frac{\delta^{^2}}{_2}}
      得证。

  • 假设 α<ϵ\alpha<\epsilon ,且小于 m+m^+ 的正例子。在这种情况下, BB 将返回假设 hh^− 。我们得到:

    LD(h)=α<ϵ.L_\mathcal D(h)=\alpha<\epsilon.

    类似地,如果 (1α)<ϵ(1-\alpha)<\epsilon ,且小于 mm^− 举出反面例子, BB 将返回 h+h^+ 。在这种情况下,

    LD(h)=1α<ϵL_\mathcal D(h)=1-\alpha<\epsilon

总之,我们已经证明了,概率至少为 1δ1−\delta , BB 返回假设 hhL(D,f)(h)<ϵL_{(\mathcal D,f)}(h)<\epsilon 。这满足了我们在单预言机模型中对PAC易学性的定义。