Chapter 4 Learning via Uniform Convergence

277 阅读8分钟

4 一致收敛性学习

我讨论过的第一个学习模型是PAC模型。在第二章节我们已经证明了在可实现性假设下,任何有限的假设性类都是PAC可学习的。在这一章中我们将开发一个通用的工具,一致收敛,并应用它来去证明在一般损失函数的未知PAC模型中,只要范围损失函数是有界的,任何有限类都是可学习的。

4.1  一致收敛对于可学习性是足够的

本章讨论的学习条件背后的理念非常简单。回想一下,给定一个假设类,H\mathcal H ,ERM学习范式的工作原理如下:在收到一个训练样本S后,学习者评估给定样本中每个hhH\mathcal H的风险(或错误),并输出一个 H\mathcal H 的成员,该成员将该经验风险降至最低。我们希望,对于真实数据概率分布而言,使SS的经验风险最小化的也是一个风险最小化(或风险接近最小)的 H\mathcal H 。因此,它足以确保 H\mathcal H 所有成员的经验风险是其真实风险的良好近似值。换句话说,我们需要在假设类中的所有假设中,经验风险都将接近真实风险,如以下形式化所示。

定义4.1(ϵ\epsilon-代表性样本) 训练集被叫做 ϵ\epsilon-代表(w.r.t. 领域ZZ,假设类别 H\mathcal H,损失函数 \ell ,和分布 D\mathcal D )如果

hH,LShLD(h)ϵ\forall h\in\mathcal H,|L_Sh-L_{\mathcal D}(h)|\leq\epsilon

  下一个简单引理指出,每当样本是(ϵ\epsilon/2)-代表时,ERM学习规则保证返回一个好的假设。

外稃4.2假设是一个训练集 SSϵ2\frac{\epsilon}{2}-代表(w.r.t. 领域 ZZ ,假设类别 H\mathcal H ,损失函数 \ell,和分布 D\mathcal D )。然后,ERMH(S)ERM_{\mathcal H}(S)的人乎输出,即任何hsargminhHLs(h)h_s\in argmin_{h\in\mathcal H}L_s(h),满足

LD(hS)minhH LD(h)+ϵL_{\mathcal D}(h_S)\leq \underset{h\in\mathcal H}{min}\ L_{\mathcal D}(h)+\epsilon

证明每个 hHh\in \mathcal H

LD(hS)LS(hS)+ϵ2LS(h)+ϵ2LD(h)+ϵ2+ϵ2=LD(h)+ϵ,L_{\mathcal D}(h_S)\le L_S(h_S)+\frac{\epsilon}{2}\le L_S(h)+\frac{\epsilon}{2}\le L_{\mathcal D}(h)+\frac{\epsilon}{2}+\frac{\epsilon}{2}=L_{\mathcal D}(h)+\epsilon,

其中第一个和第三个不等式是由 SS 是的假设引起的 ϵ2\frac{\epsilon}{2} 代表性(定义4.1),第二个不等式成立,因为 hSh_S 是ERM预测因子。

  前面的引理暗示,为了确保ERM规则是不可知的PAC学习者,它足以证明概率至少为 1− δ\delta 在随机选择的一个训练集上,它将是一个具有代表性的训练集。一致收敛条件形式化了这一要求。

定义4.3(一致收敛)我们说假设类 H\mathcal H 具有一致收敛性质(w.r.t.a 域 ZZ 和损失函数 \ell ),如果存在一个函数: mHUC:(0,1)2Nm_{\mathcal H}^{UC}:(0,1)^2\rightarrow \mathbb N 使得对于每一个 ϵ,δ(0,1)\epsilon,\delta\in(0,1) 对于 ZZ 上的每个概率分布 D\mathcal D,如果 SSmmHUC(ϵ,δ)m\ge m_{\mathcal H}^{UC}(\epsilon,\delta) 的样本给出了大量的例子。根据 D\mathcal D ,那么,概率至少为 1δ1-\delta , SSϵ\epsilon -代表。

 与PAC学习的样本复杂度定义类似,函数 mHUCm_{\mathcal H}^{UC} 度量获得一致收敛性的(最小)样本复杂度,即,我们需要多少个样本来确保概率至少为 1δ1- \delta 样品应具有代表性。

这里的“一致”一词指的是具有一个固定的样本大小,该样本大小适用于 H\mathcal H 的所有成员以及域上所有可能的概率分布。

  下面的推论直接来自引理4.2和一致收敛的定义。

推论4.4如果类 H\mathcal H 具有函数 mHUCm_{\mathcal H}^{UC} 的一致收敛性,则该类在样本复杂度 mH(ϵ,δ)mHUC(ϵ/2,δ)m_{\mathcal H}(\epsilon,\delta)\le m_{\mathcal H}^{UC}(\epsilon/2,\delta) 下是不可知PAC可学习的。此外,在这种情况下,ERMHERM_{\mathcal H}范式是 H\mathcal H 的一个成功的不可知PAC学习者。

4.2  有限类是不可知的PAC可学习的

鉴于推论4.4,一旦我们确定一致收敛适用于有限假设类,那么每个有限假设类都是不可知的PAC可学习的。

  为了证明一致收敛成立,我们采用了两步论证,类似于第2章中的推导。第一步应用并集界,而第二步采用测度集中不等式。我们现在详细解释这两个步骤。

  修正一些 ϵ,δ\epsilon,\delta 。 我们需要找到一个样本量 mm ,他保证对于任何 D\mathcal D ,从 D\mathcal D 中选择 S=z1,...,zmS = (z_1,...,z_m) 的概率至少为 1δ1-\delta ,我们都有 hH,Ls(h)LD(h)ϵh\in\mathcal H,L_s(h)-L_{\mathcal D}(h)\le\epsilon 。 也就是说

Dm({S:hH,Ls(h)LD(h)ϵ})1δ\mathcal D^m(\{S:\forall h\in\mathcal H,|L_s(h)-L_{\mathcal D}(h)|\le\epsilon\})\ge1-\delta

等价地,我们需要证明

Dm({S:hH,Ls(h)LD(h)>ϵ})<δ\mathcal D^m(\{S:\exist h\in\mathcal H,|L_s(h)-L_{\mathcal D}(h)|>\epsilon\})<\delta

写入

{S:hH,LS(h)LD(h)>ϵ}=hH{S:LS(h)LD(h)>ϵ}\{S:\exist h\in\mathcal H,|L_S(h)-L_{\mathcal D}(h)|>\epsilon\}=\cup_{h\in\mathcal H}\{S:|L_S(h)-L_{\mathcal D}(h)>\epsilon\}

应用并定界(引2.2)我们得到

Dm({S:hH,LS(h)LD(h)>ϵ})hHDm({S:LS(h)LD(h)>ϵ})(4.1)\mathcal D^m(\{S:\exist h\in\mathcal H,|L_S(h)-L_{\mathcal D}(h)|>\epsilon\})\le\sum_{h\in\mathcal H}\mathcal D^m(\{S:|L_S(h)-L_{\mathcal D}(h)|>\epsilon\})\tag{4.1}

  我们的第二步将是论证这个不平等的右手边的每个和都足够小(对于一个足够大的宝石)。也就是说,我们将证明,对于任何固定假设,hh(在训练集抽样之前提前选择),真实风险和经验风险之间的差距, LS(h)LD(h)|L_S(h)-L_{\mathcal D}(h)| ,很可能很小。

  回想一下 LD(h)=EzD[(h,z)]L_{\mathcal D}(h)=E_{z\sim\mathcal D}[\ell(h,z)] 并且 LS(h)=1mi=1m(h,zi)L_S(h)=\frac{1}{m}\sum_{i=1}^m\ell(h,z_i) 。因为每个 ziz_i 都是 i.i.d 取样的。从 D\mathcal D 开始,随机变量 (h,zi)\ell(h,z_i) 的期望值为 LD(h)L_{\mathcal D}(h)。通过期望的线性,可以得出 LD(h)L_{\mathcal D}(h)也是 LS(h)L_S(h) 的期望值。因此,数量 LD(h)LS(h)|L_{\mathcal D}(h)-L_{\mathcal S}(h) 的是随即变量 LS(h)L_S(h) 与其期望值的偏差。因此我们需要证明 LS(h)L_S(h) 的度量集中在其预期值周围。

  一个基本的统计事实,《大数定律》指出,当趋于无穷大时,经验平均值会收敛到它们的真实期望值。 LS(h)L_S(h) 也是如此,因为它是mm i.i.d 随机变量的经验平均值。然而,由于大数定律只是一个渐进的结果,因此对于任何给定的、有限的样本量,它没有提供关于经验估计误差与其真实值之间差距的信息。

  取而代之的是,我们将使用霍夫丁(Hoeffding)提出的集中度不平等度量,它量化了经验平均值与其预期值之间的差距。

引理 4.5 (霍夫丁不等式) 设 θ1,...,θm\theta_1,...,\theta_m 是一个 i.i.d 序列。随机变量,并假设对于所有 iiE[θi]=μ and P[aθib]=1\mathbb E[\theta i]=\mu \ and\ \mathbb P[a\le\theta_i\le b]=1,那么没有 ϵ>0\epsilon > 0

P[1mi=1mθiμ>ϵ]2exp(2mϵ2/(ba)2)\mathbb P[|\frac{1}{m}\sum_{i=1}^{m}\theta_i-\mu|>\epsilon]\le2exp(-2m\epsilon^2/(b-a)^2)

证据见附录B

  回到我们的问题,让 θi\theta_i 是随机变量 (h,zi)\ell (h,z_i)。因为 hh 是固定的,z1,...,zmz_1,...,z_m 是 i.i.d. 取样的,因此 θ1,...,θm\theta_1,...,\theta_m 也是 i.i.d. 随机变量。此外,LS(h)=1mi=1mθi and LD(h)=μL_S(h)=\frac{1}{m}\sum_{i=1}^m\theta_i\ and \ L_{\mathcal D}(h)=\mu 。让我们进一步假设 \ell 的范围是 [0,1][0,1] ,因此θi[0,1]\theta _i\in[0,1] 。因此我们得到

Dm({S:LS(h)LD(h)>ϵ})=P[1mi=1mθiμ>ϵ] 2 exp(2mϵ2)(4.2)\mathcal D^m(\{S:|L_S(h)-L_{\mathcal D}(h)|>\epsilon\})=\mathbb P[|\frac{1}{m}\sum_{i=1}^{m}\theta_i-\mu|>\epsilon]\le\ 2 \ exp(-2m\epsilon^2)\tag{4.2}

将其方程(4.1)相结合得到

Dm({S:hH,LS(h)LD(h)>ϵ})hH2 exp(2mϵ2)=2Hexp(2mϵ2).\mathcal D^m(\{S:\exist h\in\mathcal H,|L_S(h)-L_{\mathcal D}(h)|>\epsilon\})\le\sum_{h\in\mathcal H}2\ exp(-2m\epsilon^2)=2|\mathcal H|exp(-2m\epsilon^2).

最后,如果我们选择

mlog(2H/δ)2ϵ2m\ge\frac{log(2|\mathcal H|/\delta)}{2\epsilon^2}

然后

Dm(S:hH,LS(h)LD(h)>ϵ)δ.\mathcal D^m({S:\exist h\in\mathcal H,|L_S(h)-L_{\mathcal D}(h)|>\epsilon})\le\delta.

推论 4.6 设 H\mathcal H 为有限假设类,ZZ 为域,设 :H×Z[0,1]\ell :\mathcal H\times Z\rightarrow[0,1] 是一个损失函数。然后,H\mathcal H 具有一致收敛性,样本复杂度很大

mHUC(ϵ,δ)log(2H/δ)2ϵ2m^{UC}_{\mathcal H}(\epsilon,\delta)\le\left\lceil\frac{log(2|\mathcal H|/\delta)}{2\epsilon^2}\right\rceil

​ 此外,使用样本复杂度为

mH(ϵ,δ)mHUC(ϵ/2,δ)2log(2H/δ)ϵ2.m_{\mathcal H}(\epsilon,\delta)\le m^{UC}_{\mathcal H}(\epsilon/2,\delta)\le\left\lceil\frac{2log(2|\mathcal H|/\delta)}{\epsilon^2}\right\rceil.

的 ERM 算法,该类是不可知 PAC 可学习的

备注 4.1 ("离散化技巧")虽然前面的推论只适用于有限假设类,但有一个简单的技巧可以让我们很好地估计无限假设类的实际样本复杂性。考虑一个由 dd 参数参数化的假设类。例如,设 X=R,Y={±1}\mathcal X = \mathbb R,\mathcal Y=\{\pm1\},和假设类 H\mathcal H 都是 hθ(x)=sign(xθ)h_\theta(x)=sign(x-\theta) 形式的函数。也就是说,每个假设有一个参数 θR\theta \in \mathbb R ,对于大于 θ\theta 的所有实例,假设输出 1 ,并输出 -1 对于小于 θ\theta 的实力,为 1.这是一个无限大的假设类。然而,如果我们要在实践中学习这个假设类,使用计算机,我们可能会使用浮点表示法,使用计算机,我们可能会使用浮点表示法,比如说 64 位来维护实数。

因此,在实践中,我们的假设类是由一组标量参数化的,这些标量可以用64位浮点数表示。最多有2642^{64}个这样的数字;因此,我们假设类的实际大小最多为2642^{64}。更一般地说,如果我们的假设类被参数化为bydnumbers,那么在实践中,我们学习的假设类的大小最多为264d2^{64d}。应用推论4.6我们得到这样的类的样本复杂度以 128d+2log(2/δ)ϵ2\frac{128d+2log(2/\delta)}{\epsilon^2} 为界。样本复杂度的上界有一个缺陷,即依赖于我们机器使用的实数的特定表示。在第六章中,我们将介绍一种严格的方法来分析无限大假设类的样本复杂性。然而,在许多实际情况下,离散化技巧可用于获得样本复杂度的粗略估计。

4.3 总结

如果一致收敛性适用于 H\mathcal H 类假设,那么在大多数情况下, H\mathcal H 类假设的经验风险将忠实地代表其真实风险。一致收敛满足使用ERM规则的不可知PAC可学习性。我们已经证明,有限假设类具有一致收敛性,因此是不可知的PAC可学习的。

4.4 书目注释

具有一致收敛性质的函数类也称为Glivenko-Cantelli类,以Valery Ivanovich Glivenko和Francesco Paolo-Cantelli命名,他们在20世纪30年代证明了第一个一致收敛结果。见(达德利,1991年出生26岁)。Vapnik对一致收敛性和可学习性之间的关系进行了彻底的研究——参见(Vapnik 1992、Vapnik 1995、Vapnik 1998)。事实上,正如我们将在第6章后面看到的,学习理论的基本定理表明,在二元分类问题中,一致收敛不仅是可学习性的一个充分条件,也是一个必要条件。更一般的学习问题并非如此(参见(Shalev Shwartz,Shamir,Srebro& Sridharan 2010))

4.5 练习

  1. 在本练习中,我们表明,在PAC学习的定义中,误差收敛的 (ϵ,δ)(\epsilon,\delta) 要求实际上非常接近于关于平均值(或期望值)的简单要求。证明以下两个陈述是等价的(对于任何学习算法 AA、任何概率分布 D\mathcal D 和范围为[0,1]的任何损失函数):
    1. 对于每一个 ϵ,δ>0\epsilon,\delta >0 ,就存在一个 m(ϵ,δ)m(\epsilon,\delta) ,使得 mm(ϵ,δ)\forall m\ge m(\epsilon,\delta)
PSDm[LD(A(S))>ϵ]<δ\underset{S \sim\mathcal D^m}{\mathbb P}[L_{\mathcal D}(A(S))>\epsilon]<\delta

​ 2.

limm ESDm[LD(A(S))]=0\underset{m\rightarrow \infty }{lim}\ \underset{S\sim\mathcal D^m}{\mathbb E}[L_{\mathcal D}(A(S))]=0

​ (在 ESDm\mathbb E_{S\sim\mathcal D^m} 表示对样本 SS 的期待 mm)

  1. 有界损失函数:推论4。6我们假设损失函数的范围为[0,1]。证明如果损失函数的范围为[a,b],则样本复杂度满足
    mH(ϵ,δ)mHUC(ϵ/2,δ)1log(2H/δ)(ba)2ϵ2m_{\mathcal H}(\epsilon,\delta)\le m^{UC}_{\mathcal H}(\epsilon/2,\delta)\le\left\lceil\frac{1log(2|\mathcal H|/\delta)(b-a)^2}{\epsilon^2}\right\rceil