《机器学习理论导引》笔记目录
4.3 分析实例
理论回顾
定理3.6
Rd 中由非齐次线性超平面构成的假设空间 H 的 VC维为 d+1
定理3.7
若 ∥x∥≤r,D 为大小为 m 的数据集,则超平面族 H={x↦wTx:∥w∥≤Λ} 的经验 Rademacher复杂度满足
RD^(H)≤mr2Λ2
定理3.8
若 ∥x∥≤r,则超平面族 {x↦sign(wTx):minx∣wTx∣=1∧∥w∥≤Λ} 的 VC维 d满足
d≤r2Λ2
定义 3.3
函数空间 F 关于 𝑍 的经验 Rademacher 复杂度为
定义 3.4
函数空间 F 关于 Z 在分布 m 上的 Rademacher 复杂度为
引理 (第一章中的 Hoeffding 不等式)
若训练集 D 包含 m 个从分布 D 上独立同分布采样而得的样本,0<ϵ<1,则对任意 h∈H,有
P(E^(h)−E(h)≥ϵ)≤exp(−2mϵ2)P(E^(h)−E(h)≤−ϵ)≤exp(−2mϵ2)P(∣E^(h)−E(h)∣≥ϵ)≤2exp(−2mϵ2)
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,具体来说,就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。
泛化误差上界是样本容量和空间容量的函数,样本容量越大,空间容量越小,泛化误差上界越小。
间隔损失函数
引入间隔使得泛化误差界与数据分布相关。
定义 4.1
对任意 ρ>0,ρ− 间隔损失为定义在 z,z′∈R 上的损失函数 ℓρ:R×R↦R+,ℓρ(z,z′)=Φρ(zz′),其中
Φρ(x)=⎩⎨⎧01−x/ρ1ρ⩽x0⩽x⩽ρx⩽0
对于集合 D=x1,…,xm 与假设 h,经验间隔损失表示为
Eρ(h)=m1i=1∑mΦρ(yih(xi))
又 Φρ(yih(xi))⩽Iyih(xi)⩽ρ,由拉格朗日定理可得
∣Φρ(x1)−Φρ(x2)∣⩽∣Φρ′(ξ)∣∣x1−x2∣
由间隔损失函数定义可得
∣Φρ′(ξ)∣⩽ρ1
(补充:对于在实数集的子集的函数 f:D⊆R→R,若存在常数 K,使得 ∣f(a)−f(b)∣⩽∣a−b∣,∀a,b∈D,则称 f 符合 Lipschitz 条件,对于 f 最小的常数 K 称为 f 的 Lipschitz 常数) 可知 Φρ 最多是 ρ1-Lipschitz
Talagrand 收缩引理
引理 4.4 (Talagrand 收缩引理)
若 Φ:R↦R 为 ℓρ− Lipschitz 函数,则对于任意实值假设空间 H 有下式成立:
RD(Φ∘H)⩽LR^D(H)
说明 Lipschitz 函数与假设空间 H 复合后的经验 Rademacher 复杂度可以基于假设空间 H 的经验 Rademacher 复杂度表示
证明
固定样本空间 D=(x1,…,xm),根据定义
ℜS(Φ∘H)=m1E[h∈Hsupi=1∑mσi(Φ∘h)(xi)]=m1σσ1,…,σm−1E[σmE[h∈Hsupum−1(h)+σm(Φ∘h)(xm)]]
um−1(h)=∑i=1m−1σi(Φ∘h)(xi) 假设上确界能够达到,令 h1,h2∈H 满足
um−1(h1)+Φm(h1(xm))=h∈Hsupum−1(h)+Φm(h(xm))um−1(h2)−Φm(h2(xm))=h∈Hsupum−1(h)−Φm(h(xm))
如果上确界达不到,可以考虑接近 ϵ 的上确界,可以得到类似下面的结论。因为 σm 是 {−1,+1} 上的均匀分布,根据期望的定义有
E[m∈Hsupum−1(h)+σm(Φ∘h)(xm)]]=21[um−1(h1)+(Φ∘h1)(xm)]+21[um−1(h2)−(Φ∘h2)(xm)]≤21[um−1(h1)+um−1(h2)+sL(h1(xm)−h2(xm))]=21[um−1(h1)+sLh1(xm)]+21[um−1(h2)−sLh2(xm)]≤21h∈Hsup[um−1(h)+sLh(xm)]+21h∈Hsup[um−1(h)−sLh(xm)]=σmE[h∈Hsupum−1(h)+σmLh(xm)]
令 s=sgn(h1(xm)−h2(xm)),对所有其他 i(i=m) 以相同的方式进行,得证。
二分类 SVM 的泛化误差界
定理 4.8 (关于 Rademacher 复杂度的泛化上界)
令 H 为实值假设空间,给定 ρ>0,对于 0<δ<1 和 h∈H,以至少 1−δ 的概率有
E(h)⩽Eρ(h)+ρ2ℜm(H)+2mlnδ1E(h)⩽Eρ(h)+ρ2ℜD(H)+32mlnδ2
证明
构造 H~={z=(x,y)↦yh(x):h∈H},考虑值域为 [0,1] 的假设空间 F={Φρ∘f:f∈H~} 由定理 4.4 知,对所有 g∈F,以至少 1−δ 的概率有 :
E[g(z)]⩽m1i=1∑mg(zi)+2ℜm(F)+2mlnδ1
因此对于 h∈H,以至少 1−δ 的概率有:
E[Φρ(yh(x))]⩽Eρ(h)+2ℜm(Φρ∘H~)+2mlnδ1
因为对 ∀u∈R,Iu⩽0⩽Φρ(u) 成立,所以
E(h)=E[Iyh(x)⩽0]⩽E[Φρ(yh(x))]
代入可知,以至少 1−δ 的概率有:
E(h)⩽Eρ(h)+2ℜm(Φρ∘H~)+2mlnδ1
由于 Φρ 是 ρ1-Lipschitz,由引理 4.4 可知
ℜm(Φρ∘H~)⩽ρ1ℜm(H~)
又由 Rademacher 复杂度定义知
ℜm(H~)===m1ED,σ[h∈Hsupi=1∑mσiyih(xi)]m1ED,σ[h∈Hsupi=1∑mσih(xi)]ℜm(H)
代入得,以至少 1−δ 的概率有:
ℜm(Φρ∘H~)⩽ρ1ℜm(H)⇒E(h)⩽Eρ(h)+2ℜm(Φρ∘H~)+2mlnδ1⩽Eρ(h)+ρ2ℜm(H)+2mlnδ1
得证。由定理 4.4 可知,以至少 1−δ 的概率有:
E[g(z)]⩽m1i=1∑mg(zi)+2ℜD(F)+32mlnδ2
同理可证,以至少 1−δ 的概率有:
E(h)⩽Eρ(h)+2ℜD(Φρ∘H)+32mlnδ2
对于经验 Rademacher 复杂度,由于 Φρ 是 ρ1-Lipschitz,类似地有
R^D(Φρ∘H~)⩽ρ1RD(H~)RD(H~)=m1Eσ[h∈Hsupi=1∑mσiyih(xi)]=m1Eσ[h∈Hsupi=1∑mσih(xi)]=R^D(H)
则以至少 1−δ 的概率有:
E(h)⩽Eρ(h)+ρ2ℜD(H)+32mlnδ2
定理 4.9
令 H 为实值假设空间,对于 0<δ<1 和 h∈H,以及任意 ρ∈(0,1),以至少 1−δ 的概率有:
E(h)⩽Eρ(h)+ρ4ℜm(H)+mlnlog2ρ2+2mlnδ2E(h)⩽Eρ(h)+ρ4RD(H)+mlnlog2ρ2m+32mlnδ4
由定理 3.7 可知 RD(H)⩽mr2Λ2,两边取期望得到,Rm(H)⩽mr2Λ2
推论 4.1
令 H={x↦w⋅x:∣w∣⩽Λ} 且 ∥x∥⩽r,对于 0<δ<1 和 h∈H 和固定的 ρ>0,以至少 1−δ 的概率有:
E(h)⩽Eρ(h)+2mr2Λ2/ρ2+2mlnδ1
推论 4.2
令 H={x↦w⋅x:∣w∣⩽Λ} 且 ∥x∥⩽r,对于 0<δ<1 和 h∈H 和任意的的 ρ∈(0,1),以至少 1−δ 的概率有:
E(h)⩽Eρ(h)+4mr2Λ2/ρ2+mlnlog2ρ2+2mlnδ2
经验风险最小化
定义 4.2
如果学习算法 L 输出 H 中具有最小经验误差的假设 h,即 E^(h)=minh′∈HE(h′),则称 L 为满足经验风险最小化原则的算法
假设 L 为满足经验风险最小化原则的算法,令 g 表示 H 中具有最小泛化误差的假设,即 E(h)=minh′∈HE(h′) 由引理 2.1 可知,
P(∣E(g)−E(g)∣⩾2ϵ)⩽2exp(−2mϵ2)
由于 δ′=2δ,2m(ln2/δ′)⩽2ϵ,即 2exp(−2mϵ2)⩽δ′ 以至少 1−2δ 的概率有:
E(g)−2ϵ⩽E(g)⩽E(g)+2ϵ
由定理 4.3 可知,以至少 1−2δ 的概率有:
∣E(h)−E(h)∣⩽2ϵ
即 E(h)⩽E(h)+2ϵ (根据经验最小化原则,E(h)⩽E(g)),所以以至少 1−δ 的概率有:
E(h)−E(g)⩽E(h)+2ϵ−(E(g)+2ϵ)=E(h)−E(g)+ϵ⩽ϵ
所以若学习算法 L 输出 H 中具有最小经验误差的假设 h,其泛化误差
E(h) 以至少 1−δ 的概率不大于最小泛化误差 E(h)+ϵ
结论
- 泛化误差边界不取决于维度,而取决于间隔
- 这需要我们在更高维的特征空间中寻找大间隔的超平面
计算问题
- 高维特征空间上使用点积是很昂贵的
- 可以使用核函数来解决
Orz 快累死了。