《机器学习理论导引》笔记目录
0 破事水 感言
第五章我一直没有找到对应的讲解 PPT (可以复制粘贴的原材料),但是强迫症使然我必然还是会把它进行补充的 (说起来更新章节也并没有严格按照顺序来做)。感觉现阶段理解很多概念还是比较困难的,再把实例分析和里面的定理一看更是头大,所以第一次更这部分,我先打算把实例分析跳过 (第8章那个我觉得少而不必要)。后续有缘的话补上。
5.1 稳定性的基本概念
考虑样本空间 X⊆Rd 和标记空间 Y⊂R,假设 D 是空间 X×Y 上的一个 联合分布。训练集 D={(x1,y1),(x2,y2),…,(xm,ym)} 基于分布 D 独立同分布采样所得。记 z=(x,y) 和 zi=(xi,yi)。在稳定性研究中,一般考虑训练集 D 的两种扰动: 移除样本和替换样本,其定义如下:
-
D\i 表示移除训练集 D 中第 i 个样本而得到的数据集, 即
D\i={z1,z2,…,zi−1,zi+1,…,zm}
-
Di,zi′ 表示将训练集 D 中第 i 个样本 zi=(xi,yi) 替换为 zi′=(xi′,yi′) 所 得的数据集, 即
Di,zi′={z1,z2,…,zi−1,zi′,zi+1,…,zm}
给定学习算法 L, 令 LD:X↦Y 表示 L 基于训练集 D 学习所得的输出函数。引入损失函数 ℓ,对于常用的 0/1 损失函数和平方损失函数在此不做过多赘述。
为衡量输出函数 LD 在数据集或数据分布下的性能。下面定义三种常用的风险 :
-
函数 LD 在数据集 D 上的性能被称为 经验风险, 即
R(LD)=m1i=1∑mℓ(LD,zi).
-
函数 LD 在数据分布 D 上的性能被称为泛化风险, 即
R(LD)=Ez∼D[ℓ(LD,z)].
-
给定数据集 D, 留一风险 (leave-one-out risk) 为
Rloo (LD)=m1i=1∑mℓ(LD\i,zi).
对于这三种风险, 有如下关系 :
引理 5.1 对任意数据集 D 和 i∈[m], 有
ED[R(LD)−R(LD)]=ED,zi′[ℓ(LD,zi′)−ℓ(LDi,zi′,zi′)]ED[R(LD\i)−Rloo (LD)]=0,ED[R(LD)−Rloo (LD)]=ED,z[ℓ(LD,z)−ℓ(LD\i,zi)]
证明
根据泛化风险可知
ED[R(LD)]=ED,z[ℓ(LD,z)]=ED,zi′[ℓ(LD,zi′)]
由于数据集 D 中的样本 z1,z2,…,zm 是基于分布 D 独立同分布来样得到的,根据经验风险可得
ED[R(LD)]=m1j=1∑mED[ℓ(LD,zj)]=ED[ℓ(LD,zi)]
将样本 zi 替换为 zi′,可以得到
ED[R(LD)]=ED,zi′[ℓ(LDi,zi′,zi′)]
同理可证明剩下两式成立。
下面给出几种经典的稳定性概念,首先介绍均匀稳定性 (uniform stability),分为替换样本均匀稳定性和移除样本均匀稳定性两种情况。
定义 5.1 替换样本均匀稳定性 : 对任意数据集 D 和样本 z,z′∈X×Y,若学习算法 L 满足
∣ℓ(LD,z)−ℓ(LDi,z′,z)∣⩽β(i∈[m])
则称算法 L 具有关于损失函数 ℓ 的替换样本 β−均匀稳定性。
定义 5.2 移除样本均匀稳定性 : 对任意数据集 D 和样本 z∈X×Y,若学习算法 L 满足
∣ℓ(LD,z)−ℓ(LD\i,z)∣⩽γ(i∈[m])
则称算法 L 具有关于损失函数 ℓ 的移除样本 γ−均匀稳定性。可以衍生得到
⩽∣ℓ(LD,z)−ℓ(LDi,z′,z)∣∣ℓ(LD,z)−ℓ(LD\i,z)∣+∣ℓ(LDi,z′,z)−ℓ(LD\i,z)∣⩽2γ
从而证明了算法 L 具有替换样本 2γ−均匀稳定性。因此移除样本均匀稳定性可推导出替换样本均匀稳定性。
一般而言, 替换样本 β-均匀稳定性中的系数 β 与训练集的大小 m 相关,即 β=β(m)。若算法 L 满足
m→∞limβ=m→∞limβ(m)=0,
则称算法 L 是稳定的。直观而言,均匀稳定性确保了当训练数据足够多时,替换一个样本对学习算法输出函数的影响较小。
考虑到均匀稳定性要求对任意的数据集 D 和样本 z 满足 5.1 和 5.2 两个定义,这是一个较强的条件。我们适当放松这个条件 : 对数据集 D 和样本 z 取期望,在期望条件下考虑训练集的扰动对算法输出函数的影响,就产生了如下的假设稳定性。
定义 5.3 替换样本假设稳定性 : 若学习算法 L 满足
ED,zi′∼Dm+1[∣ℓ(LD,zi)−ℓ(LDi,zi′,zi)∣]⩽β(i∈[m]),
则称算法 L 具有关于损失函数 ℓ 的替换样本 β-假设稳定性。
5.2 稳定性的重要性质
5.2.1 稳定性与泛化性
定理 5.1 给定学习算法 L 和数据集 D={z1,z2,…,zm},假设损失函数 ℓ(⋅,⋅)∈[0,M],若学习算法 L 具有替换样本 β-均匀稳定性,则对任意 δ∈(0,1) 以至少 1−δ 的概率有
R(LD)⩽R(LD)+β+(2mβ+M)2mln(1/δ)
若学习算法 L 具有移除样本 γ-均匀稳定性,则对任意 δ∈(0,1),以至少 1−δ 的概率有
R(LD)⩽Rloo (LD)+γ+(4mγ+M)2mln(1/δ)
证明 首先设函数
Φ(D)=Φ(z1,z2,…,zm)=R(LD)−R(LD).
对任意 i∈[m],根据引理 5.1 中第一个式子可得
ED[Φ(D)]=ED[R(LD)−R(LD)]=ED,zi′[ℓ(LD,zi′)−ℓ(LDi,zi′,zi′)]⩽β
给定样本 zi′∈X×Y,有
∣∣Φ(D)−Φ(Di,zi′)∣∣⩽∣∣R(LD)−R(LDi,zi′)∣∣+∣∣R(LDi,zi′)−R(LD)∣∣
对替换样本 β-均匀稳定性的算法 L,有
⩽⩽∣∣R(LDi,zi′)−R(LD)∣∣m∣∣ℓ(LD,zi)−ℓ(LDi,zi′,zi′)∣∣+j=i∑m∣∣ℓ(LD,zj)−ℓ(LDi,zi′,zj)∣∣β+M/m
进一步可以得到
∣∣R(LD)−R(LDi,zi′)∣∣=∣∣Ez∼D[ℓ(LD,z)−ℓ(LDi,zi′,z)]∣∣⩽β
将上面两式代入可得
∣∣Φ(D)−Φ(Di,zi′)∣∣⩽2β+M/m
再将 McDiarmid 不等式应用于函数 Φ(D), 对任意 ϵ>0 有
P(R(LD)−R(LD)⩾β+ϵ)=P(Φ(D)⩾β+ϵ)⩽P(Φ(D)⩾E[Φ(D)]+ϵ)⩽exp((2mβ+M)2−2mϵ2)
令 δ=exp(−2mϵ2/(2mβ+M)2),解出 ϵ=(2mβ+M)ln(1/δ)/2m,代入上式可得, 以至少 1−δ 的概率有
R(LD)−R(LD)<β+(2mβ+M)2mln(1/δ)
由此证明定理 5.1 中第一个式子,同理基于构造 Φ′(D)=R(LD)−Rloo (LD) 可证明第二个式子。
定理 5.2 给定学习算法 L 和训练集 D={z1,z2,…,zm},假设损失函数 ℓ(⋅,⋅)∈[0,M],若学习算法 L 具有替换样本 β-假设稳定性, 则有
ED∼Dm[(R(LD)−R(LD))2]⩽4Mβ+mM2
证明 根据泛化风险和经验风险的定义有
=ED[(R(LD)−R(LD))2]=ED⎣⎡(R(LD)−m1i=1∑mℓ(LD,zi))2⎦⎤m21i=j∑ED[(R(LD)−ℓ(LD,zi))(R(LD)−ℓ(LD,zj))]+m21i=1∑mED[(R(LD)−ℓ(LD,zi))2]
根据损失函数 ℓ(⋅,⋅)∈[0,M] 可得 R(LD)=Ez∼D[ℓ(LD,z)]∈[0,M],以及
m21i=1∑mED[(R(LD)−ℓ(LD,zi))2]⩽mM2
根据训练集 D 的独立同分布假设有
=⩽m21i=j∑ED[(R(LD)−ℓ(LD,zi))(R(LD)−ℓ(LD,zj))](1−1/m)ED[(R(LD)−ℓ(LD,z1))(R(LD)−ℓ(LD,z2))]ED,z,z′[ℓ(LD,z)ℓ(LD,z′)−ℓ(LD,z)ℓ(LD,z1)+ℓ(LD,z1)ℓ(LD,z2)−ℓ(LD,z′)ℓ(LD,z2)]
引入数据集 D1,z={z,z2,…,zn},根据独立同分布假设有
ED,z,z′[ℓ(LD,z)ℓ(LD,z′)]=ED,z,z′[ℓ(LD1,z,z1)ℓ(LD1,z,z′)]]
进一步利用 ℓ(⋅,⋅)∈[0,M] 和替换样本 β-假设稳定性可得
ED,z,z′[ℓ(LD,z)ℓ(LD,z′)−ℓ(LD,z′)ℓ(LD,z1)]=ED,z,z′[ℓ(LD1,z,z1)ℓ(LD1,z,z′)−ℓ(LD,z′)ℓ(LD,z1)]⩽ED,z,z′[∣ℓ(LD1,z,z′)∣×∣ℓ(LD1,z,z1)−ℓ(LD,z1)∣]+ED,z,z′[∣ℓ(LD,z1)∣×∣ℓ(LD1,zz,z′)−ℓ(LD,z′)∣]⩽2Mβ
引入数据集 D1,z′={z′,z2,…,zn}, 同理可证
=ED,z,z′[ℓ(LD,z1)ℓ(LD,z2)−ℓ(LD,z′)ℓ(LD,z2)]ED,z,z′[ℓ(LD,z1)ℓ(LD,z2)−ℓ(LD1,z′,z1)ℓ(LD1,z′,z2)]⩽2Mβ
结合上面的式子,定理得证。
过拟合 (overfitting) 是泛化性研究中的一个重要的概念。给定训练集 D,若算法 L 输出函数的经验风险较小、而泛化风险较大,则称过拟合现象,即经验风险与泛化风险之间的差距 ED∼Dm[R(LD)−R(LD)] 较大。
定理 5.3 数据集 D={z1,z2,…,zm} 和样本 z′ 都是基于分布 D 独立同分布采样所得,令 U(m) 表示在集合 [m]={1,2,…,m} 上的均匀分布, 则对任何学习算法 L 有
=ED∼Dm[R(LD)−R(LD)]ED,z′∼Dm+1,i∼U(m)[ℓ(LDi,z′,zi)−ℓ(LD,zi)]
证明 根据样本 z′ 和数据集 D 的独立同分布假设可知
ED∼Dm[R(LD)]=ED,z′∼Dm+1[ℓ(LD,z′)]=ED,z′∼Dm+1,i∼U(m)[ℓ(LDi,z′,zi)]
另一方面有 ED∼Dm[R(LD)]=ED∼Dm,i∼U(m)[ℓ(LD,zi)],定理得证。
5.2.2 稳定性和科学性
定义 5.4 ERM 算法 : 给定函数空间 H={h:X↦Y} 和损失函数 ℓ,对任意训练集 D,若学习算法 L 在 D 上学习得到的输出函数 LD 满足经验风险最小化,即
LD∈h∈HargminRD(h),
则称算法 L 满足经验风险最小化 (Empirical Risk Minimization) 原则, 简称 ERM 算法。
ERM 算法的稳定性和科学性有如下关系 :
定理 5.4 若学习算法 L 是 ERM 的、且具有替换样本 β-均匀稳定性 (其 中 β=1/m ),则 (学习算法 L 所考虑的) 函数空间 H 是不可知 PAC 可学的。
证明 令 h∗ 表示 H 中具有最小泛化风险的函数,即
R(h∗)=h∈HminR(h).
为证明不可知 PAC 可学性,需验证存在多项式函数 poly(⋅,⋅,⋅,⋅),使得当训练 集的个数 m⩾poly(1/ϵ,1/δ,d,size(c)) 时,有
P(R(LD)−R(h∗)⩽ϵ)⩾1−δ
给定一个学习问题, 参数 d 和 size(c) 根据学习问题变为确定的常数, 因此只需证明存在多项式函数 poly(⋅,⋅), 当 m⩾poly(1/ϵ,1/δ) 时上式成立。首先有
=R(LD)−R(h∗)(R(LD)−R(LD))+(R(LD)−R(h∗))+(R(h∗)−R(h∗))
因为算法 LD 具有替换样本 β-均匀稳定性,其中 β=1/m,根据定理 5.1 可知,对任意 δ∈(0,1),以至少 1−δ/2 的概率有
R(LD)−R(LD)⩽m1+(2+M)2mln(2/δ)
考虑到函数 LD 是在训练集 D 上经验风险最小化所得,有
R(LD)⩽R(h∗).
根据 Hoeffding 不等式可知,以至少 1−δ/2 的概率有
R(h∗)−R(h∗)⩽mln(2/δ).
结合上面的四个式子和联合界不等式可知,以至少 1−δ 的概率有
R(LD)−R(h∗)⩽m1+(2+M)2mln(2/δ)+mln(2/δ).
不妨令
ϵ=m1+(2+M)2mln(2/δ)+mln(2/δ),
从 (5.44) 求解出 m(ϵ,δ)=O(ϵ21lnδ1). 因此当 m⩾m(ϵ,δ) 时有
P(R(LD)−R(h∗)⩽ϵ)⩾1−δ.
考虑到 ln(1/δ)⩽1/δ,因此存在多项式 poly(1/ϵ,1/δ)⩾m(ϵ,δ),使得当 m⩾poly(1/ϵ,1/δ) 时上式成立,定理得证。