2 PAC学习框架 (page11、12)

274 阅读3分钟

在设计和分析从示例中学习的算法时,会出现几个基本问题:什么可以有效地学习?什么是天生难学的?成功学习需要多少个例子?有没有一个通用的学习模型?在本章中,我们将通过介绍可能近似正确的(PAC)学习框架,开始形式化并解决这些问题。PAC框架有助于根据实现近似解所需的样本点数量、样本复杂度、学习算法的时间和空间复杂度(取决于概念的计算表示成本)来定义可学习概念的类别。

我们首先描述了PAC框架并对其进行了说明,然后在假设集有限的情况下,给出了该框架内的一些一般学习保证,无论是在假设集包含要学习的概念的一致情况下,还是在相反的不一致情况下。


我们首先介绍几个定义和表示PAC模型所需的符号,本书的大部分内容也将使用这些定义和符号。
我们用XX表示所有可能的例子或实例的集合。X有时也称为输入空间。所有可能的标签或目标值的集合用Y表示。在本介绍性章节中,我们将把自己限制在YY被简化为两个标签的情况下,Y={0,1}Y=\{0,1\},即所谓的二元分类。后面的章节将把这些结果扩展到更一般的设置。
概念c:XYc:X→ Y是从XXYY的映射。由于Y={0,1}Y = \{0,1\},我们可以用取值为11党的XX的子集来识别cc。因此,在接下来中,我们等价的将要学习的概念称为从XX{0,1}\{0,1\}XX的子集的映射。例如,概念可以是三角形内点的集合或这些点的指示函数。在这种情况下,我们将简而言之,学习的概念是一个三角形。概念类是我们希望学习的一组概念,用C表示。例如,这可以是平面中所有三角形的集合。
我们假设样本根据某个固定但未知的分布DD独立且同分布(i.i.d.)。然后,学习问题的表述如下。
学习者考虑一组固定的可能概念HH,称为假设集,它可能与CC不一致。它收到一个样本S=x1,...,xmS=(x_1,...,x_m)绘制的i.i.d.i.i.d.根据DD以及标签(c(x1),...,c(xm))(c(x_1),...,c(x_m)),这些标签基于特定的目标概念cCc∈C来学习。
它的工作是使用被标记的样本 SS 来选择一个对于概念 cc 具有小的泛化误差的假设 hS  Hh_S ∈ H。假设 h  Hh ∈ H 的泛化误差也称为hh 的真实误差或误差,由 R(h)R(h) 表示,定义如下。

定义2.1 泛化误差

给定假设 h  Hh ∈ H、目标概念 c  Cc ∈ C 和底层分布 DDhh 的泛化误差或风险定义为

R(h)=PrxD[h(x)c(x)]=ExD[1h(x)c(x)],(2.1)R(h)=\underset {x\sim D}{Pr}[h(x)\neq c(x)]=\underset {x\sim D}{E}[1_{h(x)\neq c(x)}],(2.1)
  • 其中1ω1_ω是事件 ω 的指示函数。
    由于分布DD和目标概念cc都未知,学习者无法直接获得假设的推广错误。然而,学习者可以测量标记样本上假设的经验误差。

定义2.2 经验误差

假设hHh∈ H、 目标概念cCc∈C和样本S=x1xmS=(x_1,…,x_m)hh的经验误差或经验风险定义如下:

R^(h)=1mi=1m1h(xi)c(xi).(2.2)\widehat R(h)=\frac {1}{m}\sum_{i=1}^m1_{h(x_i)\neq c(x_i)}.(2.2)

因此,h ∈ H 的经验误差是它在样本 S  S 上的平均误差,而泛化误差是它基于分布 D  D 的预期误差。 我们将在本章和后续章节中看到这两个量的多项担保有很高的可能性,在一些一般假设下。我们已经注意到,对于固定的 h  Hh ∈ H,基于 i.i.d. 的样本S经验误差的期望等同于泛化误差。

E[R^(h)]=R(h).(2.3)E[\widehat R(h)]=R(h).(2.3)