《机器学习理论导引》笔记目录
0 补充感言
我是真的没有想到这章的内容竟然这么多,之前 (上) 的部分其实在本地我分了两个 markdown 文件,因为单一 markdown 文件太大甚至已经影响到预览的响应速度了。
4.2 泛化误差下界
泛化误差下界的意义
- 指出学习算法能力的极限
- 对于任何学习算法存在一个数据分布,样本数量有限时,学习算法不能以较大概率输出目标概念的近似。
一般证明方法
- 通常采用构造法证明
- 证明的要点 : 如何构造这样的数据分布
4.2.1 可分情形
Fubini 定理
若函数 f(x,y) 的期望 Ex,y[∣f(x,y)∣]<∞,则 Ex[Ey[f(x,y)]]=Ey[Ex[f(x,y)]]
定理 4.6
若假设空间 H 的 VC 维 d>1,则对任意 m>1 和学习算法 L,存在分布 D 和目标概念 c∈H 使得
P(E(hD,c)>32md−1)⩾1001
其中 hD 为学习算法 L 基于大小为 m 的训练集 D 输出的假设。
证明
对于给定的 D∈A,考虑来自均匀分布 U 的目标概念 c:S↦{−1,+1},我们可以得到以下结论 :
EU[E(hD,c)]=c∑x∈S∑I(hD(x)=c(x))Px∼D(x)Pc∼U(c)⩾c∑x∈S−Dˉ−{x0}∑I(hD(x)=c(x))Px∼D(x)Pc∼U(c)=x∈S−Dˉ−{x0}∑(c∑I(hD(x)=c(x))Pc∼U(c))Px∼D(x)=21x∈S−Dˉ−{x0}∑Px∼D(x)⩾212d−1d−18ϵ=2ϵ
上式对于任意 D∈A 均成立,因此关于 A 的期望也成立,有 ED∈A[EU[E(hD,c)]]⩾2ϵ。
可知交换期望计算顺序不等式依然成立, 即有 ED∈A[EU[E(hD,c)]]⩾2ϵ 期望的下界为 2ϵ,必定存在一个目标概念 c∗∈H 满足 ED∈A[EU[E(hD,c∗)]]⩾2ϵ
=⩽==ED∈A[E(hD,c∗)]D:E(hD,c∗)>ϵ∑E(hD,c∗)P(D)+D:E(hD,c∗)⩽ϵ∑E(hD,c∗)P(D)Px∼D(x∈(S−{x0}))PD∈A(E(hD,c∗)>ϵ)+ϵ(1−PD∈A(E(hD,c∗)>ϵ))8ϵPD∈A(E(hD,c∗)>ϵ)+ϵ(1−PD∈A(E(hD,c∗)>ϵ))7ϵPD∈A(E(hD,c∗)>ϵ)+ϵ
通过上面两个式子,我们有
PD∈A(E(hD,c∗)>ϵ)⩾7ϵ1(2ϵ−ϵ)=71
借助于这个不等式,有
PD∼Dm(E(hD,c∗)>ϵ)⩾PD∈A(E(hD,c∗)>ϵ)PD∼Dm(D∈A)⩾71PD∼Dm(D∈A)
接下来,只要找到 PD∼Dm(D∈A) 的下界即可证明定理。令 lm 表示 Dˉ 的数目,根据 Chernoff 不等式可知,对于 γ>1,有
PD∼Dm(lm⩾8ϵm(1+γ))⩽exp(−38ϵmγ2)
令 ϵ=(d−1)/(32m),γ=1,可得
1−PD∼Dm(D∈A)=PD∼Dm(lm⩾2d−1)⩽exp(−12d−1)⩽exp(−121)
令 exp(−121)⩽1−7δ,可得 PD∼Dm(D∈A)⩾7δ,再根据
PD∼Dm(E(hD,c∗)>ϵ)⩾71PD∼Dm(D∈A)
可知
PD∼Dm(E(hD,c∗)>ϵ)⩾δ
取 δ=1001,从而定理得证。
4.2.2 不可分情形
对于不可分假设空间的泛化误差下界,主要比较学习算法 L 的泛化误差与贝叶斯最优分类器泛化误差之间的关系。
引理 4.2
令 σ 为服从 {−1,+1} 上均匀分布的随机变量,对于 0<α<1 构造随机变量 ασ=21+2ασ, 基于 σ 构造 X∼Dσ,其中 Dσ 为伯努利分布 Bernoulli(ασ),即 P(X=1)=ασ。令 S={X1,…,Xm} 表示从分布 Dσm 独立同分布采样得到的大小为 m 的集合, 即 S∼Dσm,则对于函数 f:Xm↦{−1,+1} 有
Eσ[PS∼Dgm(f(S)=σ)]⩾Φ(2⌈2m⌉,α)
其中 Φ(m,α)=41(1−1−exp(−1−α2mα2))
引理 4.2 可以从投硬币的角度理解 :
- 我们可以将每个样本的标记视为投硬币的结果
- 红硬币投到正面概率为 21+α,对应于 σ=+1
- 蓝硬币投到正面概率为 21−α,对应于 σ=−1
- 算法需要通过硬币的投掷结果来判断,样本是由红硬币产生的还是蓝硬币产生的,对应于 f
引理 4.2 告诉我们 : 为了区分样本对应哪个硬币,需要其在训练集中出现足够多的次数 (Ω(1/α2) 次)
引理 4.3
令 Z 为取值范围为 [0,1] 的随机变量,对于 γ∈[0,1) 有
P(Z>γ)⩾1−γE[Z]−γ⩾E[Z]−γ
证明
E[Z]=z⩽γ∑P(Z=z)z+z>γ∑P(Z=z)z⩽z⩽γ∑P(Z=z)γ+z>γ∑P(Z=z)=γP(Z⩽γ)+P(Z>γ)=γ(1−P(Z>γ))+P(Z>γ)=(1−γ)P(Z>γ)+γ
定理 4.7
若假设空间 H 的 VC 维 d>1,则对任意 m>1 和学习算法 L,存在分布 D 使得
证明
S^={x1,…,xd}⊂X 表示能被 H 打散的集合。对于 α∈[0,1] 和向量 σ=(σ1;…;σd)∈{−1,+1}d,在 S×Y 上构造如下分布 Dσ
PDσ(z=(xi,+1))=d1(21+2σiα)(i∈[d])PDσ(z=(xi,−1))=d1(21−2σiα)(i∈[d])
因为 S 能被 H 打散,所以我们可以构造该数据下的贝叶斯最优分类器 hDσ∗(xi)=argmaxy∈{−1,+1}P(y∣xi)=sign(I(σi>0)−1/2),i∈[d],可知 hDσ∗∈H,对于 hDσ∗ 计算可得
E(hDσ∗)===xi∈S∑(PDσ(z=(xi,+1))I(hDσ∗(xi)=−1)+PDσ(z=(xi,−1))I(hDσ∗(xi)=+1))xi∈S∑(PDσ(z=(xi,+1))I(σi<0)+PDσ(z=(xi,−1))I(σi>0))xi∈S∑d1(21−2α)=21−2α
对于任意 h∈H 计算可得
E(h)===xi∈S∑(PDσ(z=(xi,+1))I(h(xi)=hDσ∗(xi))I(hDσ∗(xi)=+1)+PDσ(z=(xi,+1))I(h(xi)=hDσ∗(xi))I(hDσ∗(xi)=−1)+PDσ(z=(xi,−1))I(h(xi)=hDσ∗(xi))I(hDσ∗(xi)=−1)+PDσ(z=(xi,−1))I(h(xi)=hDσ∗(xi))I(hDσ∗(xi)=+1)xi∈S∑(2d1+αI(h(xi)=hDσ∗(xi))+2d1−αI(h(xi)=hDσ∗(xi)))dαxi∈S∑I(h(xi)=hDσ∗(xi))+21−2α
从而可知
E(h)−E(hDσ∗)=dαxi∈S∑I(h(xi)=hDσ∗(xi))
∣Z∣x 表示样本 x 在 Z 中出现的次数
Eσ∼u,Z∼Dσm[α1(E(hZ)−E(hDσ∗))]=d1x∈S∑Eσ∼u,Z∼Dσm[I(hZ(x)=hDσ∗(x))]=d1x∈S∑Eσ∼u[PZ∼Dσm(hZ(x)=hDσ∗(x))]=d1x∈S∑n=0∑mEσ∼u[PZ∼Dσm(hZ(x)=hDσ∗(x)∣∣Z∣∣x=n)P(∣Z∣x=n)]⩾d1x∈S∑n=0∑mΦ(2[n/2⌉,α)P(∣Z∣x=n)⩾d1x∈S∑n=0∑mΦ(n+1,α)P(∣Z∣x=n)⩾d1x∈S∑Φ(m/d+1,α)=Φ(m/d+1,α)
由于上述关于 σ 期望的下界被 Φ(m/d+1,α) 限制住,则必定存在 σ∗∈{−1,+1}d 使得下式成立
EZ∼Dσ′[α1(E(hZ)−E(hDσ∗∗))]⩾Φ(m/d+1,α)
根据引理 4.3 可知,对于 σ∗ 以及任意 γ∈[0,1) 有
PZ∼Dσ∗m(α1(E(hZ)−E(hDσ∗∗))>γμ)⩾(1−γ)u
其中 u=Φ(m/d+1,α),令 δ 与 ϵ 满足条件 δ⩾(1−γ)u 以及 ϵ⩾γαu,则有
PZ∼Dσ∗m(E(hZ)−E(hDσ∗∗)>ϵ)⩾δ
为了找到满足条件的 δ 与 ϵ,令 γ=1−8δ,则
δ⩽(1−γ)u⇔⇔⇔⇔u⩾8141(1−1−exp(−1−α2(m/d+1)α2))⩾811−α2(m/d+1)α2⩽ln34dm⩽(α21−1)ln34−1
令 α=8ϵ/(1−8δ),即 ϵ=γα/8,即
dm⩽(64ϵ2(1−8δ)2−1)ln34−1
令 δ⩽1/64,可得
(64ϵ2(1−8δ)2−1)ln34−1⩾(647)2ϵ21ln34−ln34−1
上式右端为关于 ϵ21 的函数 f(ϵ21),可寻找 w 使得 m/d⩽w/ϵ2。令 ϵ⩽1/64,由 (1/64)2w=f((1/64)21) 可得
(647)2ln34−(641)2(ln34+1)≈0.003127⩾3201
因此, 当 ϵ2⩽320m/d1 时,满足 δ⩽(1−γ)u 以及 ϵ⩽γαu。取ϵ=320md 和 δ=1/64,定理得证