前言
好热好热好热
第十二章
本章比较理论,主要说的是凭什么相信机器学习,他为什么能给出一个好的结果:本质是研究泛化误差问题
12.1 基础知识
我们先假设有一个样本集D={(x1,y1),…,(xm,ym)},其中所有样本都是独立同分布地从分布D中采样得到的。这里每个xi属于输入空间X,每个yi属于输出空间Y。在接下来的讨论中,如果没有特别说明,我们默认研究的是二分类问题。
通过机器学习算法,我们得到了一个学习器h,它实际上是一个从输入空间到输出空间的映射,即h:X→Y。这个学习器的泛化误差定义为:
E(h;D)=Px∼D(h(x)=y)
这个式子表示当输入x服从分布D时,学习器h预测错误的概率。
同时,基于我们已有的样本集D,可以计算出经验误差(也称为训练误差):
E^(h;D)=m1i=1∑mI(h(xi)=yi)
这里I(⋅)是指示函数,当括号内条件成立时取值为1,否则为0。由于样本集D是从D中独立同分布采样得到的,因此经验误差的期望等于泛化误差。当上下文明确时,我们可以省略误差表示中的D。
上述内容我们应该是很熟悉的了。现在需要明确的是,我们不期望学习到的模型h能够完全匹配宇宙中客观存在的完美真理函数c(也称概念concept)。我们只要求h和c之间的误差率足够小,具体来说就是要求泛化误差不超过一个预先设定的很小正值ϵ,即满足E(h)≤ϵ。
对于模型h在样本集D上的表现,如果经验误差E^(h;D)=0,我们就说h与D一致;否则称为不一致。此外,对于任意两个模型h1和h2,我们可以通过定义它们的不合度来衡量它们之间的差异:
d(h1,h2)=Px∼D(h1(x)=h2(x))
这个不合度度量了两个模型在分布D下产生不同预测的概率。
接下来,我们引入几个常用的不等式:
不想纠结证明的朋友可以只记结论
Jensen不等式:设f(x)是任意凸函数,则有
f(E(x))≤E(f(x))
对于一个凸函数f(x),找一个特殊点μ=E(x)。根据凸函数的定义,在点μ处存在一条支撑线(支撑超平面),使得对于所有x,都有:
f(x)≥f(μ)+c(x−μ)
其中c是支撑线在μ处的斜率。对上述不等式两边同时取数学期望:
E[f(x)]≥E[f(μ)+c(x−μ)]
将右边展开:
- 第一项f(μ)是常数,其期望就是它本身:E[f(μ)]=f(μ)=f(E[x])
- 第二项c(x−μ)可以分解为:
E[c(x−μ)]=cE[x−μ]=c(E[x]−μ)=c(μ−μ)=0
因此不等式右边简化为f(E[x]),从而得到:
E[f(x)]≥f(E[x])
证毕。
Hoeffding不等式:设x1,x2,…,xm为m个独立随机变量,且满足xi∈[0,1],则对于任意ϵ>0,有
P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)≤exp(−2mϵ2)
同时
P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)≤2exp(−2mϵ2)
首先考虑第一个不等式。令Sm=∑i=1mxi,将不等式改写为:
P(mSm−mE[Sm]≥ϵ)≤exp(−2mϵ2)
对不等式左边进行如下变形:
P(mSm−mE[Sm]≥ϵ)=P(Sm−E[Sm]≥mϵ)=P(es(Sm−E[Sm])≥esmϵ)≤esmϵE[es(Sm−E[Sm])]
其中:
- 第二步引入了任意正数s>0,这是为了后续应用马尔可夫不等式做准备。
- 第三步应用了马尔可夫不等式:对于非负随机变量Y=es(Sm−E[Sm]),有P(Y≥a)≤aE[Y]。
接下来处理分子部分E[es(Sm−E[Sm])]。设zi=xi−E[xi],则Sm−E[Sm]=∑i=1mzi。由于xi相互独立,zi也相互独立,因此:
E[es(Sm−E[Sm])]=E[es∑i=1mzi]=i=1∏mE[eszi]
为了给出E[eszi]的上界,我们使用Hoeffding引理:
若随机变量Z满足E[Z]=0且Z∈[a,b],则对于任意s>0,有:
E[esZ]≤exp(8s2(b−a)2)
对于zi=xi−E[xi],由于xi∈[0,1],可得zi∈[−E[xi],1−E[xi]],区间长度为1,且E[zi]=0。因此,应用Hoeffding引理得到:
E[eszi]≤exp(8s2)
将其代回分子部分:
i=1∏mE[eszi]≤i=1∏mexp(8s2)=exp(8ms2)
于是不等式变为:
P(mSm−mE[Sm]≥ϵ)≤esmϵexp(8ms2)=exp(8ms2−smϵ)
由于该不等式对所有s>0成立,我们选择s使得右侧指数最小。对8s2−sϵ关于s求导并令导数为零,得到最优s=4ϵ。将其代入,得到最小上界:
exp(8m(4ϵ)2−4ϵmϵ)=exp(−2mϵ2)
因此:
P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)≤exp(−2mϵ2)
证明第二个不等式:
对于绝对值形式的不等式,可以将其拆分为两个事件:
{m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ}={m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ}∪{m1i=1∑mxi−m1i=1∑mE[xi]≤−ϵ}
由概率的并集不等式P(A∪B)≤P(A)+P(B),有:
P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)≤P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)+P(m1i=1∑mE[xi]−m1i=1∑mxi≥ϵ)
第一项的上界已证明为exp(−2mϵ2)。对于第二项,可以通过变量替换xi→−xi,由于xi∈[0,1]的性质和独立性保持不变,其概率上界同样为exp(−2mϵ2)。因此:
P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)≤2exp(−2mϵ2)
证毕。
McDiarmid不等式:
设 x1,x2,…,xm 是 m 个独立的随机变量,若函数 f 满足:对于任意 1⩽i⩽m 和任意的 x1,…,xm,xi′,都有
∣f(x1,…,xm)−f(x1,…,xi−1,xi′,xi+1,…,xm)∣⩽ci,
这意味着当只改变第 i 个输入变量时,函数值的变化幅度不超过 ci。那么对于任意 ϵ>0,有
P(f(x1,…,xm)−E[f(x1,…,xm)]⩾ϵ)⩽exp(∑i=1mci2−2ϵ2),
以及
P(∣f(x1,…,xm)−E[f(x1,…,xm)]∣⩾ϵ)⩽2exp(∑i=1mci2−2ϵ2).
为了简化书写,记 X=(x1,…,xm),并定义 Z=f(X)−E[f(X)]。我们引入条件期望的记号:Ei[⋅] 表示对变量 {xi,xi+1,…,xm} 取期望,而将 {x1,…,xi−1} 视为固定值。定义
Vi=E[f(X)∣x1,…,xi],
这是一个仅依赖于前 i 个变量的函数。特别地:
- Vm=E[f(X)∣x1,…,xm]=f(X),
- V0=E[f(X)]。
于是,Z 可以表示为:
Z=Vm−V0=i=1∑m(Vi−Vi−1).
记 Yi=Vi−Vi−1,则 Z=∑i=1mYi。接下来,我们采用切诺夫界的方法:对于任意 λ>0,有
P(Z⩾ϵ)⩽e−λϵE[eλZ]=e−λϵE[exp(λi=1∑mYi)].
切诺夫界方法:对于随机变量 Z,通过引入参数 λ>0,利用马尔可夫不等式可得:
P(Z⩾ϵ)=P(eλZ⩾eλϵ)⩽eλϵE[eλZ].
接下来计算 E[eλZ]。根据塔定律(条件期望的迭代性质),可以逐步对变量取条件期望。首先:
E[eλ∑i=1mYi]=E[E[eλ∑i=1mYi∣x1,…,xm−1]].
在内层条件期望中,x1,…,xm−1 是固定的,因此 Y1,…,Ym−1 是常数,可以提出:
E[eλ∑i=1m−1Yi⋅eλYm∣x1,…,xm−1]=eλ∑i=1m−1Yi⋅E[eλYm∣x1,…,xm−1].
将其代回外层期望,得到:
E[eλZ]=E[eλ∑i=1m−1Yi⋅E[eλYm∣x1,…,xm−1]].
重复这一过程,逐步对 Ym−1,Ym−2,…,Y1 取条件期望,最终只需考虑:
E[eλYi∣x1,…,xi−1].
为了对上式进行界估计,我们使用Hoeffding引理。首先验证 Yi 的条件:
- 零均值性:
E[Yi∣x1,…,xi−1]=E[Vi∣x1,…,xi−1]−Vi−1=Vi−1−Vi−1=0.
- 有界性:
定义辅助函数:
g(xi′)=E[f(x1,…,xi−1,xi′,…,xm)∣x1,…,xi−1],
则 Vi=g(xi),Vi−1=E[g(xi′)],因此:
Yi=g(xi)−E[g(xi′)].
由最开始f 的性质∣f(…)−f(…)∣≤ci,g 的值域满足:
xi′,xi′′sup∣g(xi′)−g(xi′′)∣⩽ci.
因此,Yi 的取值区间宽度不超过 ci。
根据Hoeffding引理,有:
E[eλYi∣x1,…,xi−1]⩽exp(8λ2ci2).
将其代入 E[eλZ] 的表达式,得到:
E[eλZ]⩽i=1∏mexp(8λ2ci2)=exp(8λ2∑i=1mci2).
最后,通过优化 λ 来最小化右式。令导数为零,解得:
λ=∑i=1mci24ϵ,
此时指数部分取得最小值:
−∑i=1mci22ϵ2.
因此,第一条不等式得证。第二条不等式可以通过类似 Hoeffding 不等式的对称性证明,此处省略。
12.2 PAC学习
回到我们的主线,我们需要解决的问题是学习器的泛化性能分析。为此,提出了可能近似正确(Probably Approximately Correct, PAC)学习框架,旨在为这一问题建立严格的数学理论基础。
正如前文所述,在这个框架下,我们对学习器的要求包含两个关键方面:
-
近似正确:不要求学习器h达到零错误率,但要求其错误率能够控制在可接受的范围内。具体来说,对于给定的误差阈值ϵ>0,学习器的错误率应当满足err(h)≤ϵ。这里的ϵ反映了我们对模型精度的要求。
-
可能:不要求学习过程每次都成功,但要求成功的概率足够高。具体而言,对于给定的置信参数δ>0,学习过程失败的概率不超过δ。换句话说,我们以至少1−δ的概率保证学习器满足近似正确性条件。δ的设定反映了我们对学习过程可靠性的要求。
PAC学习理论主要研究在给定学习要求的情况下,学习算法需要满足的条件,特别是所需的训练数据量。我们沿用之前的符号定义:输入空间X和输出空间Y,数据分布D,目标概念c。
接着引入两个概念:
- 假设空间H:表示在特定学习算法L作用下可能产生的所有假设h的集合。这里需要特别注意,这个H是与算法相关的,不同于学习任务本身的理论假设空间。
- 概念类C:表示我们希望学习的所有可能目标概念的集合。如果目标概念c包含在假设空间H中(即c∈H),那么我们称学习算法L是可分的或者一致的;反之则称为不可分的或不一致的。
接下来给出四个定义:
PAC辨识:对于任意的0<ϵ,δ<1,针对所有可能的目标概念c∈C和所有可能的数据分布D,若存在一个学习算法L,使得该算法输出的假设h∈H满足以下概率不等式:
P(E(h)≤ϵ)≥1−δ
其中E(h)表示假设h的泛化误差,那么称学习算法L能够从假设空间H中PAC辨识概念类C。这个定义将机器学习算法需要满足的可靠性要求进行了严格的数学表述。
需要特别注意的是,虽然PAC辨识提供了一个理想化的理论保证,但它没有考虑实现这个保证所需的样本数量。如果达到该保证需要无限多个训练样本,那么这个理论结果就失去了实际应用价值。
PAC可学习:设m表示从分布D中独立同分布采样得到的训练样本数量,给定参数0<ϵ,δ<1。如果对于所有可能的分布D,都存在一个学习算法L和一个多项式函数poly(⋅,⋅,⋅,⋅),使得当样本量m满足:
m≥poly(1/ϵ,1/δ,size(x),size(c))
时,L都能从假设空间H中PAC辨识概念类C,那么就称概念类C相对于假设空间H是PAC可学习的,简称为概念类C是PAC可学习的。
这个定义的核心在于对样本的多项式约束,具体解释如下:
- 1/ϵ:要求的精度越高(ϵ越小),需要的样本量越大
- 1/δ:置信度要求越高(δ越小),需要的样本量越大
- size(x):输入样本的表示复杂度
- size(c):目标概念的描述复杂度
多项式增长意味着样本需求量的上界是可控的,这与指数级增长形成鲜明对比,后者在实际中往往是不可行的。
在保证样本效率的基础上,我们还需要考虑计算效率,这就引出了下一个定义:
PAC学习算法:如果一个学习算法L不仅使概念类C是PAC可学习的,而且L本身的运行时间也是多项式函数poly(1/ϵ,1/δ,size(x),size(c)),那么就称概念类C是高效PAC可学习的,并称L为概念类C的PAC学习算法。
这个定义在PAC可学习的基础上增加了对算法时间复杂度的约束,其理解方式与PAC可学习类似。
最后,PAC可学习给出了样本量的一个下界,而我们还希望知道这个下界的最小值,这就是:
样本复杂度:对于PAC学习算法L,若存在多项式函数poly(⋅)使得当样本量m满足m≥poly(1/ϵ,1/δ,size(x),size(c))时,L能实现PAC学习,则称满足该条件的最小m值为该算法的样本复杂度。
这个指标反映了算法达到PAC学习要求所需的最小样本数量。
在PAC学习中,假设空间H的复杂度是一个重要因素:
- 当H=C时(即假设空间与概念类完全一致),称为恰PAC学习,但这种情况通常难以实现。
- 更常见的情形是H=C,此时H的规模会影响学习难度:
- H越大,包含目标概念c的可能性越高,但找到正确的c也越困难。
- 若∣H∣有限,称H为有限假设空间;否则称为无限假设空间。
12.3 有限假设空间
我们先考虑最直观且简单的情形:模型假设空间是有限的,并且算法L是可分的(即存在至少一个假设h∈H在训练集上完全正确)。这种情况下,PAC学习的结论会如何?
由于L可分且H有限,我们可以通过遍历排除法逐步筛选假设:首先丢弃所有与训练集L不一致的假设,剩下的假设称为一致假设。但一致性只是必要条件,PAC学习还要求这些假设的泛化误差必须足够小。根据上一节的知识:对任意一个一致假设h,其泛化误差E(h)≤ϵ的概率至少为1−δ,才能满足PAC可辨识性。
证明过程如下:
假设从H中随机选取一个坏假设hbad,其泛化误差满足E(hbad)>ϵ。对于任意来自分布D的样本(x,y),该假设预测正确的概率为:
P(hbad(x)=y)=1−P(hbad(x)=y)=1−E(hbad)<1−ϵ
这意味着,坏假设hbad在单次预测中不犯错(即“蒙混过关”)的概率严格小于1−ϵ。如果hbad要成为一致假设,它必须对所有m个训练样本都预测正确,这一事件的概率不超过(1−ϵ)m。
接下来考虑假设空间H的整体性质。虽然无法直接计算抽到坏假设的概率,但可以通过联合界得到失败概率的上界:
Pfail≤∣H∣⋅(1−ϵ)m≤∣H∣⋅e−ϵm
其中最后一步利用了不等式1−x≤e−x(x>0)。这表明,算法L输出坏假设的概率(即学习失败的概率)不超过∣H∣e−ϵm。为了满足PAC要求,我们强制该概率小于δ:
∣H∣e−ϵm≤δ
解得所需的最小样本量m为:
m≥ϵ1(ln∣H∣+lnδ1)
结论:只要样本数量m满足上述条件,有限假设空间H在可分情形下一定是PAC可辨识且可学习的。
以上结论成立的条件中有一个明显的可分情形假设,那么如果数据不可分时该如何处理?在这种情况下,E^(h)=0,∀h∈H,也就是说对于假设空间中的任何假设,其在训练集上都无法达到完美表现。
这时一个自然的思路是放宽要求:我们只需要保证假设空间中在训练集上表现最好的那个假设h,其泛化误差E(h)<ϵ的概率达到1−δ即可。
首先,这个证明需要用到之前提到的霍夫丁不等式:
P(∣E^(h)−E(h)∣>ϵ)≤2e−2mϵ2
接下来我们继续使用联合界。学习失败的事件定义为至少存在一个h∈H使得训练误差和泛化误差的偏差超过ϵ:
Pfail=P(∃h∈H,∣E^(h)−E(h)∣>ϵ)≤h∈H∑P(∣E^(h)−E(h)∣>ϵ)≤h∈H∑2e−2mϵ2=2∣H∣e−2mϵ2
我们希望这个失败概率不超过δ,于是得到不等式∣H∣⋅2e−2mϵ2≤δ,解这个不等式可以得到:
m≥2ϵ21(ln∣H∣+lnδ2)
这个结果表明即使在不可分情形下,PAC学习仍然是可能的。因此我们定义:
不可知 PAC 可学习:设m表示从分布D中独立同分布采样的样本数量,0<ϵ,δ<1。如果对于所有分布D,存在学习算法L和多项式函数poly(⋅,⋅,⋅,⋅),使得对于任何m≥poly(1/ϵ,1/δ,size(x),size(c)),L能从假设空间H中输出满足以下条件的假设h:
P(E(h)−h′∈HminE(h′)≤ϵ)≥1−δ
则称假设空间H是不可知 PAC 可学习的。
最终我们得到了不可知 PAC 学习的样本复杂度界。将其与之前"可分"情况的结果进行比较:
- 可分情形: m≥ϵ1(ln∣H∣+lnδ1)
- 不可分情形: m≥2ϵ21(ln∣H∣+lnδ2)
可以观察到对ϵ的依赖关系从1/ϵ变为1/ϵ2,这说明在不可知设定下,要达到相同的精度要求需要多得多的样本。
12.4 VC维
上一节我们讨论了有限假设空间的情况,现在将假设空间扩展到无限维的情形。考虑一个最简单的二分类任务,通常使用超平面将样本空间划分为两部分,每个超平面对应一个假设h。这样的假设有多少个呢?显然存在无限多个,即∣H∣=∞。根据上一节的推导公式(无论是否可分),这意味着需要无限多的训练样本,但这与实际情况不符。因此可以得出结论:对于无限维假设空间,上一节得到的边界公式不再适用。
为了处理无限假设空间的问题,VC维理论提出了新的思路:给定m个数据点时,我们不关注能完美分类这些点的具体假设数量,而是研究这些假设能产生的不同划分结果的总数。为此需要先引入以下关键概念:
增长函数ΠH(m)的定义
对于任意正整数m,假设空间H的增长函数定义为:
ΠH(m)=max{x1,…,xm}⊂X∣{(h(x1),…,h(xm))∣h∈H}∣
这个定义可以分两步理解:
- 首先固定一组m个样本点{x1,...,xm},让假设空间H中的所有假设h对这组样本进行预测,得到所有可能的输出组合(h(x1),...,h(xm)),这些输出组合构成一个集合,计算该集合的大小(即不同预测结果的数量)。
- 然后考虑所有可能的m个样本点的组合,对每个样本组合重复上述过程,最终取所有结果中的最大值作为ΠH(m)的值。
定理12.2我不打算证明,有想法的同学可以参照书上的注释找原文证明。
在此之上,我们可以定义打散:称假设空间H能够打散一个包含m个样本点的集合D⊂X,当且仅当对于D中样本的所有可能的2m种标签分配方式,都存在至少一个假设h∈H能够精确实现该标签组合。这意味着H在集合D上的表达能力达到了最大可能,即ΠH(m)=2m。
而对于假设空间H能够打散的最大样本集的大小,我们就称为VC维:
VC(H)=max{m:ΠH(m)=2m}
比如如果一个H的VC维是d,那么意味着存在这么一个样本集,其个数为d,可以被H打散。至此我们有了足够的定义,现在就来考虑最终的问题:PAC学习,为此我们还得有一个引理。
Sauer引理
对于一个VC维为d的假设空间H和任意大小为m的点集D,增长函数满足:
ΠH(m)≤∑i=0d(im)
证明过程:
采用数学归纳法,我们考虑以下构造:
设D′={x1,x2,…,xm−1}为去掉最后一个样本的点集。定义H∣D为假设空间H在D上产生的所有可能标签组合的集合,即:
H∣D={(h(x1),h(x2),…,h(xm))∣h∈H}
对于H∣D′中的任意标签组合y′=(y1,…,ym−1),考察其在H∣D中的扩展情况。具体来说,我们需要确定y′在H∣D中可能对应的完整标签组合。这有两种可能情形:
- 单次出现:仅存在(y1,…,ym−1,+1)或(y1,…,ym−1,−1)中的一个
- 两次出现:同时存在(y1,…,ym−1,+1)和(y1,…,ym−1,−1)
定义子集HD′∣D,它包含所有在H∣D′中能扩展出两种可能的标签组合:
HD′∣D={(y1,…,ym−1)∈H∣D′∣∃h,h′∈H,(h(xi)=h′(xi)=yi)i<m∧h(xm)=h′(xm)}
由此可以得到基数关系:
∣H∣D∣=∣H∣D′∣+∣HD′∣D∣
这是因为:
- ∣H∣D′∣计数所有可能的y′
- ∣HD′∣D∣额外计数那些能产生两种扩展的y′对应的第二种扩展
现在我们需要对等式右边的两项分别使用归纳假设。
第一项:
∣H∣D′∣表示假设空间H在m−1个样本点D′上的限制,即所有可能的标签组合数。根据归纳假设,可以得到:
∣H∣D′∣≤∑i=0d(im−1)
第二项:
令Q表示能被HD′∣D打散的集合。根据HD′∣D的定义可知,Q∪{xm}必然能被H∣D打散。由于H的VC维为d,因此HD′∣D的VC维最多为d−1。于是可以得到:
∣HD′∣D∣≤∑i=0d−1(im−1)
这个上界比第一项少了一项,对应着VC维减少1带来的影响。
最后我们将这个结果应用到原始等式中,可以得到:
∣H∣D∣=∣H∣D′∣+∣HD′∣D∣≤∑i=0d(im−1)+∑i=0d−1(im−1)
现在让我们详细展开右边两个组合数求和项的合并过程:
i=0∑d(im−1)+i=0∑d−1(im−1)=[(0m−1)+i=1∑d(im−1)]+[i=1∑d(i−1m−1)]=(0m−1)+i=1∑d((im−1)+(i−1m−1))=(0m−1)+i=1∑d(im)=(0m)+i=1∑d(im)=i=0∑d(im)
引理得证。
由该引理我们可以得到增长函数的一个上界:
ΠH(m)≤(dem)d
现在我们可以回到熟悉的PAC可学习框架上。我们需要确保"学习失败"的概率足够小,具体来说,这个概率应该小于我们能够容忍的风险阈值δ。根据定理12.2(没证明那个),我们可以将失败概率的上界设为δ:
4ΠH(2m)exp(−8mϵ2)=δ
在前面的推导中我们已经知道增长函数满足ΠH(2m)≤(de⋅2m)d这个上界。将这个上界代入上式,可以得到:
4(d2em)dexp(−8mϵ2)≤δ
为了求出ϵ的表达式,我们需要对这个不等式进行求解。最终可以得到ϵ的下界:
ϵ≥m8dln(d2em)+8ln(δ4)
基于上述工具,我们可以完成最后一个命题的证明:对于任何VC维有限的假设空间H,只要采用经验风险最小化(ERM)算法,就能构成一个满足PAC要求的学习算法。
具体说来,我们需要验证:当假设空间H的VC维有限时,采用ERM原则的学习算法L确实满足PAC可学习性。根据PAC学习的基本定义,这意味着对于任意给定的精度参数ϵ>0和置信参数δ∈(0,1),都存在一个样本量阈值mH(ϵ,δ),使得当训练样本量m≥mH(ϵ,δ)时,算法L从任意分布D中抽取样本集S后输出的假设h=L(S),能以至少1−δ的概率满足:
E(h)≤minh′∈HE(h′)+ϵ
设h=argminh′∈HE^(h′)为ERM算法输出的经验风险最小化假设,g=argminh′∈HE(h′)为整个假设空间中真实风险最小的理想假设。我们需要证明的是:
P(E(h)−E(g)≤ϵ)≥1−δ
首先将风险差分解为三个部分:
E(h)−E(g)=[E(h)−E^(h)]+[E^(h)−E^(g)]+[E^(g)−E(g)]
根据ERM的定义可知E^(h)≤E^(g),因此中间项非正,于是有:
E(h)−E(g)≤[E(h)−E^(h)]−[E(g)−E^(g)]
我们需要证明以高概率这两个偏差项都控制在ϵ/2以内。为此定义两个事件并应用联合界:
-
固定假设g的偏差控制:
由于g是固定假设(不依赖样本选择),根据Hoeffding不等式可得:
P(∣E^(g)−E(g)∣>ϵ/2)≤2exp(−mϵ2/2)
令其不超过δ/2,则事件A1:∣E(g)−E^(g)∣≤ϵ/2以至少1−δ/2的概率成立。
-
一致收敛性控制:
对于ERM输出的h(依赖样本选择),需要VC泛化界(定理12.3):
P(suph′∈H∣E(h′)−E^(h′)∣>ϵ/2)≤4ΠH(2m)exp(−mϵ2/32)
令其不超过δ/2,则事件A2:suph′∈H∣E(h′)−E^(h′)∣≤ϵ/2以至少1−δ/2的概率成立。
由联合界可知:
P(A1∩A2)≥1−(P(A1c)+P(A2c))≥1−δ
当A1和A2同时成立时:
E(h)−E(g)≤∣E(h)−E^(h)∣+∣E^(g)−E(g)∣≤ϵ/2+ϵ/2=ϵ
这一结论以至少1−δ的概率成立。
12.5 Rademacher复杂度
VC维只关注是否存在一个大小为d的集合能被假设空间H完全打散,而完全不考虑这个特定集合在实际数据分布中出现的可能性。这种与数据分布无关的最坏情况度量方式,虽然能够提供理论上的保证,但往往会导致给出的泛化误差上界过于宽松(即过于"悲观")。为了克服这一局限性,Rademacher复杂度被提出作为更精细的度量工具。
Rademacher复杂度的基本思想发生了重要转变:不再像VC维那样统计假设空间能产生的标签组合数量,而是直接评估假设空间对随机噪声的拟合能力。具体来说,如果一个假设空间能够非常完美地拟合纯粹的随机噪声,那么它在真实数据上就很可能存在严重的过拟合风险。
给定一个固定的训练数据集S={x1,x2,…,xm},我们首先完全忽略这些数据点原本的真实标签yi。然后为每个数据点xi独立地生成一个完全随机的噪声标签,称为Rademacher随机变量σi,其定义为:
σi={+1−1概率为 0.5概率为 0.5
这样就得到了一个长度为m的随机噪声向量σ=(σ1,σ2,…,σm)。
接下来,我们需要度量函数空间F(即假设空间)中任意函数f∈F对随机生成的标签σ=(σ1,...,σm)的拟合程度。具体来说,对于每个函数f,我们通过计算其预测值向量(f(x1),...,f(xm))与噪声向量σ的内积来量化它们的相关性:
i=1∑mσif(xi)
这个求和结果反映了函数输出与随机噪声的匹配程度:值越大表明函数f对噪声σ的拟合能力越强,意味着假设空间F更容易过拟合带噪声的数据。为了评估整个函数空间的噪声拟合能力,我们需要找到所有函数中最优的拟合情况,因此对于给定的噪声向量σ,定义函数空间F在样本集S={x1,...,xm}上的噪声拟合能力为:
f∈Fsupm1i=1∑mσif(xi)
由于噪声向量σ是随机生成的(共有2m种可能的取值),为了获得稳定的度量,我们需要对所有可能的噪声配置取期望。这就引出了经验Rademacher复杂度的定义:给定样本集S和函数空间F,其经验Rademacher复杂度R^S(F)定义为:
R^S(F)=Eσ[f∈Fsupm1i=1∑mσif(xi)]
经验Rademacher复杂度R^S(F)描述的是针对某个特定样本集S的函数类F的复杂度。然而在实际应用中,我们通常希望得到一个与具体抽样无关的度量,它应该仅取决于数据分布D和样本量m。为此,我们需要考虑所有可能从D中抽取的大小为m的样本集S,并对这些样本集上的经验Rademacher复杂度求期望。
基于这个思想,我们定义期望Rademacher复杂度如下:
Rm(F)=ES∼Dm[R^S(F)]=ES∼Dm[Eσ[supf∈Fm1∑i=1mσif(xi)]]
Rademacher复杂度的重要性质在于它能够给出泛化误差的紧致上界(其中m表示样本数量,δ表示置信水平参数):
E[f(z)]≤m1i=1∑mf(zi)+2Rm(F)+2mln(1/δ)
E[f(z)]≤m1i=1∑mf(zi)+2R^Z(F)+32mln(2/δ)
第一个不等式基于期望Rademacher复杂度Rm(F),第二个不等式基于经验Rademacher复杂度R^Z(F)。前者提供了理论分析的基础框架,后者则更适合实际应用中的计算估计。具体的证明过程可以参考相关教材中的详细推导。
对于二分类问题,类似的泛化误差界可以表示为:
E(h)≤E^(h)+Rm(H)+2mln(1/δ)
E(h)≤E^(h)+R^Z(H)+32mln(2/δ)
其中H表示假设空间。这些结果的证明同样可以参考标准教材中的相关内容。
最后,我们给出Rademacher复杂度和VC维之间的联系。基于前面得到的第一式:
E(h)≤E^(h)+Rm(H)+2mln(1/δ)
我们引入Massart引理来进一步分析这个上界。Massart引理的内容如下:设A是Rm中的一个有限向量集合,σ1,…,σm是独立的Rademacher随机变量,则有不等式:
Eσ[a∈Amaxi=1∑mσiai]≤(a∈Amax∥a∥2)⋅2ln∣A∣
其中∥a∥2=∑i=1mai2表示向量a的L2范数。
将这个引理应用到我们的场景中:
R^S(H)=m1Eσ[v∈HSmaxi=1∑mσivi]
根据Massart引理,经验Rademacher复杂度可以被上界约束为:
R^S(H)≤m1(v∈HSmax∥v∥2)⋅2ln∣HS∣
由于HS中的每个向量v都是二分类结果(取值为0或1),其L2范数为m,因此可以简化为:
R^S(H)≤m1⋅m⋅2lnΠH(S)=m2lnΠH(S)
这个不等式对于任意大小为m的样本集S都成立,因此我们可以进一步放宽这个上界:
R^S(H)≤m2lnΠH(m)
其中ΠH(m)是假设空间H的增长函数。
将这个结果代回最初的泛化误差界,我们得到:
E(h)≤E^(h)+m2lnΠH(m)+2mln(1/δ)
最后,利用VC维的性质lnΠH(m)≤dln(dem),其中d是假设空间H的VC维,我们得到最终的泛化误差界:
E(h)≤E^(h)+m2dln(dem)+2mln(1/δ)
即Rademacher复杂度和增长函数可以推导出VC维的泛化误差界
12.6 稳定性
在之前的讨论中,我们始终以假设空间H作为主要研究对象。现在我们需要关注学习算法本身的特性——具体来说,当训练数据集S发生微小变化(例如增加或删除一个样本)时,研究该算法输出的假设hS会产生怎样的变化。这里需要特别注意的是,实际学习算法在寻找解的过程中并不会穷举整个假设空间H,而是根据优化策略在特定的子空间中进行搜索。这就引出一个重要问题:能否避免传统分析方法中针对假设空间全局最坏情况的保守估计,转而分析具体学习算法在实际训练过程中表现出的行为模式?这种针对性研究有望得到与实际应用场景更匹配且数学上更精确的泛化性能保证。
算法稳定性理论的提出正是为了回答这个问题。其基本思想可以表述为:对于一个泛化性能良好的学习算法,当其在训练集D上学习得到假设hD时,这个结果对训练集中任意单个样本(xi,yi)的变化应该保持相对稳定。这种稳定性意味着算法输出不会因为训练样本的微小调整而产生显著波动,从而保证了在未知测试数据上的预测性能具有可靠性。
我们沿用先前定义的符号体系:设有一个由m个从未知分布D中独立同分布采样得到的样本z1,…,zm构成的训练集D,以及一个学习算法L。该算法以完整数据集D作为输入,从假设空间H中输出一个具体的假设(模型),记作LD。
两种微小变化:
- D\i:表示通过从原始数据集D中移除第i个样本zi后得到的新数据集。其样本量为m−1,这是留一法的核心操作方式。
- Di:表示将原始数据集D中的第i个样本zi替换为从同一分布D中新独立采样的样本zi′后得到的数据集。其样本量保持为m,这是定义算法均匀稳定性时的关键构造方法。
评估算法表现的三个重要指标:
- 泛化损失:衡量模型在总体分布上的预期表现,定义为:
ℓ(L,D)=Ez∼D[ℓ(LD,z)]
- 经验损失:衡量模型在训练集上的平均表现,定义为:
ℓ^(L,D)=m1∑i=1mℓ(LD,zi)
- 留一损失:通过留一法构造的评估指标,定义为:
ℓloo(L,D)=m1∑i=1mℓ(LD\i,zi)
对于留一损失:
- 对于每个样本zi(其中i=1,…,m):
- 使用排除zi后的数据集D\i训练新模型LD\i
- 用该模型计算在被排除样本zi上的损失值ℓ(LD\i,zi)
- 最后将所有m次计算的损失值取平均
由于在计算每个ℓ(LD\i,zi)时,测试样本zi与训练集D\i完全独立,这使得留一损失ℓloo(L,D)成为泛化损失ℓ(L,D)的无偏估计。数学上表示为:
ED[ℓloo(L,D)]=ED[ℓ(L,D)]
因此,ℓloo在理论上是泛化误差的一个完美代理指标。现在我们来分析ℓloo(L,D)和ℓ^(L,D)之间的差异:
ℓloo(L,D)−ℓ^(L,D)=m1∑i=1m(ℓ(LD\i,zi)−ℓ(LD,zi))
让我们仔细观察求和式中的每一项ℓ(LD\i,zi)−ℓ(LD,zi)。这个差值表示的是:当我们将训练数据集D中的第i个样本zi移除后,重新训练的模型LD\i与原始模型LD在这个被移除的样本zi上的损失值之差。如果一个学习算法具有稳定性,那么这个差值通常会很小。
基于这个观察,我们引入均匀稳定性的正式定义:一个学习算法L被称为βm-均匀稳定的,如果对于任意大小为m的数据集D,以及通过替换D中第i个样本得到的任意数据集Di(其中i∈{1,...,m}),以下不等式对所有可能的数据点z∈Z都成立:
∣ℓ(LD,z)−ℓ(LD\i,z)∣≤βm
另外,对于差值∣ℓ(LD,z)−ℓ(LDi,z)∣的估计,我们可以直接应用三角不等式进行分解:
≤≤=∣ℓ(LD,z)−ℓ(LDi,z)∣∣ℓ(LD,z)−ℓ(LD\i,z)∣+∣ℓ(LDi,z)−ℓ(LD\i,z)∣β+β2β
这一结果表明:移除示例的稳定性性质可以直接推导出替换示例的稳定性上界。
进一步地,假设学习算法L满足βm-均匀稳定性条件,且损失函数ℓ的取值范围限定在[0,M]区间内。那么对于任意置信水平0<δ<1,以至少1−δ的概率同时成立以下两个泛化界:
ℓ(L,D)≤ℓ^(L,D)+2βm+(4mβm+M)2mln(1/δ)(1)
ℓ(L,D)≤ℓloo(L,D)+βm+(4mβm+M)2mln(1/δ)(2)
我们首先证明式(2),这个证明过程中会用到McDiarmid不等式。定义随机变量Z作为数据集D的函数:
Z(D)=ℓloo(L,D)−ℓ(L,D)
需要计算cj=supD,zj′∣Z(D)−Z(Dj)∣,其中Dj表示将D中的样本zj替换为zj′得到的新数据集。根据定义,差值可以表示为:
∣Z(D)−Z(Dj)∣=∣(ℓloo(D)−ℓ(D))−(ℓloo(Dj)−ℓ(Dj))∣
应用三角不等式,这个差值可以被拆分为两部分:
≤∣ℓ(L,D)−ℓ(L,Dj)∣+∣ℓloo(L,D)−ℓloo(L,Dj)∣
第一项:
∣ℓ(L,D)−ℓ(L,Dj)∣,这反映了替换单个样本对模型整体损失的影响。可以展开为:
∣Ez[ℓ(LD,z)]−Ez[ℓ(LDj,z)]∣≤Ez[∣ℓ(LD,z)−ℓ(LDj,z)∣]=2β
因此第一项的上界是2β。
第二项:
考察留一损失的变化量∣ℓloo(L,D)−ℓloo(L,Dj)∣,这反映了替换单个样本对交叉验证损失的影响。展开表达式:
m1∑i=1mℓ(LD\i,zi)−m1∑i=1mℓ(L(Dj)\i,zij)
其中zij表示Dj中的第i个样本。将求和项分为i=j和i=j两种情况处理:
=m1(ℓ(LD\j,zj)−ℓ(L(Dj)\j,zj′))+∑i=j(ℓ(LD\i,zi)−ℓ(L(Dj)\i,zi))
- 当i=j时,两个损失函数值都在[0,M]区间内,因此其差的绝对值不超过M
- 当i=j时,由于D\i和(Dj)\i这两个训练集仅相差一个样本(zj与zj′),所以类似第一部分有:
∣ℓ(LD\i,zi)−ℓ(L(Dj)\i,zi)∣≤2β
综合这两部分结果,可以得到:
≤m1(M+(m−1)⋅2β)≤mM+2β
最终得到cj的上界:
cj=sup∣Z(D)−Z(Dj)∣≤2β+(mM+2β)=4β+mM
接下来我们定义期望泛化误差E[Z(D)]为留一误差期望与训练误差期望之差:
E[Z(D)]=E[ℓloo(L,D)]−E[ℓ(L,D)]
关于留一误差的无偏性:由于ℓloo是ℓ的近似无偏估计,其期望可以展开为:
E[ℓloo(L,D)]=E[m1∑i=1mℓ(LD\i,zi)]=E[ℓ(LD\1,z1)]=E[ℓ(L,D\1)]
中间的等式成立是基于数据独立同分布的对称性,即任意删除一个样本后的期望结果相同。
将上述结果代入可得:
E[Z(D)]=E[ℓ(L,D\1)]−E[ℓ(L,D)]
进一步表示为:
=ED,zm′,zm[ℓ(LD\m,zm′)]−ED,zm′[ℓ(LD,zm′)]
=ED,zm′[ℓ(LD\m,zm′)−ℓ(LD,zm′)]
括号内是负的均匀稳定性,最终可得:
E[Z(D)]≥E[−β]=−β
最后应用McDiarmid不等式,可以得到以下概率不等式:
P(Z(D)−E[Z(D)]≤−ϵ)≤exp(−∑j=1mcj22ϵ2)
其中,我们计算了cj的平方和上界:
∑j=1mcj2≤∑j=1m(4β+M/m)2=m(4β+M/m)2
为了将概率上界表示为δ,我们设:
δ=exp(−m(4β+M/m)22ϵ2)
通过解这个方程,可以得到ϵ的表达式:
ϵ=2m(4β+M/m)2ln(1/δ)=(4mβ+M)2mln(1/δ)
这意味着,至少有1−δ的概率,以下不等式成立:
Z(D)≥E[Z(D)]−ϵ
将Z(D)的定义和E[Z(D)]的下界代入后,可以得到:
ℓloo(L,D)−ℓ(L,D)≥−β−(4mβ+M)2mln(1/δ)
最后,通过移项整理,我们得到了式(2)的最终表达式:
ℓ(L,D)≤ℓloo(L,D)+β+(4mβ+M)2mln(1/δ)
对于式(1)的推导,直接从均匀稳定性的定义出发可以得到:
∣ℓ^(L,D)−ℓloo(L,D)∣≤β
这个不等式可以等价地表示为:
ℓloo(L,D)≤ℓ^(L,D)+β
现在,我们将这个结果代入前面已经证明的式(2)中。具体做法是将式(2)中的ℓloo(L,D)替换为其上界ℓ^(L,D)+β:
ℓ(L,D)≤≤ℓ^(L,D)+βℓloo(L,D)+β+(4mβ+M)2mln(1/δ)
将替换后的表达式展开,我们得到:
ℓ(L,D)≤(ℓ^(L,D)+β)+β+(4mβ+M)2mln(1/δ)
合并同类项后,最终得到式(1)的完整表达式:
ℓ(L,D)≤ℓ^(L,D)+2β+(4mβ+M)2mln(1/δ)
我们费这么大劲证明了基于稳定性分析导出的算法L的泛化误差界,它已经说明了我们的算法是可学习的。现在我们将说明若学习算法L是ERM且稳定的,则假设空间H可学习。其中若学习算法L所输出的假设满足经验损失最小化,则称算法L满足经验风险最小化(ERM)原则.
证明在书上,略。