《机器学习理论导引》笔记目录
0 感言
没什么太多感言了,拔刀吧!(orange 主题感觉非常鲜明,最近又把替代函数剩下部分补全了,学习笔记下也应该很快就能发布了)
6.1 基本概念
一些标记
XYDDXη(x)h:X→Y样本空间, X⊆Rd标签空间, Y={−1,+1}X×Y 上的联合概率分布X 的边缘概率分布条件概率 P(y=+1∣x)分类器
泛化风险
- 泛化风险 : 分类器在分布 D 上的分类错误率
R(h)=P(x,y)∼D(h(x)=y)=E(x,y)∼D[I(h(x)=y)]=Ex∼Dx[η(x)I(h(x)=+1)+(1−η(x))I(h(x)=−1)]=Ex∼Dx[η(x)I(h(x)=−1)+(1−η(x))I(h(x)=+1)]
Bayes 分类器
- 贝叶斯最优分类器 h∗ : 在分布 D 上取得最小错误率的分类器 (简称贝叶斯分类器)
h∗=arghminR(h)
Bayes 风险
- 贝叶斯风险 R∗ : 贝叶斯分类器的泛化风险
R∗=R(h∗)=hmin{R(h)}=Ex∼DX[h(x)min{η(x)I(h(x)=−1)+(1−η(x))I(h(x)=+1)}]
- 若分布 D 已知 (即 η(x) 已知),则可以直接根据分布给出贝叶斯分类器和贝叶斯风险:
| η(x)⩾1−η(x) | η(x)<1−η(x) |
|---|
| η(x) | ⩾21 | <21 |
| h∗(x) | +1 | −1 |
| R∗ | 1−η(x) | η(x) |
h∗(x)=2I(η(x⩾21))−1R∗=R(h∗)=Ex∼Dx[min{η(x),1−η(x)}]
引理 6.1 (贝叶斯最优分类器 h∗ 和一般的分类器 h 的关系)
∀h:X→Y 和贝叶斯最优分类器 h∗,满足
R(h)−R∗=Ex∼DX[∣1−2η(x)∣I(h(x)=h∗(x)]
证明
对任意样本 x∈X,令
Δ(x)=η(x)I(h(x)=−1)+(1−η(x))I(h(x)=+1)−η(x)I(h∗(x)=−1)−(1−η(x))I(h∗(x)=+1)
然后有
R(h)−R∗=Ex∼DX[η(x)I(h(x)=−1)+(1−η(x))I(h(x)=+1)]−Ex∼DX[η(x)I(h∗(x)=−1)+(1−η(x))I(h∗(x)=+1)]=Ex∼DX[Δ(x)]
- 若 η(x)>21 时,则 h∗(x)=+1,于是当 h(x)=−1 时,Δ(x)=2η(x)−1,当 h(x)=+1 时,Δ(x)=0,因此 Δ(x)=I(h(x)=h∗(x))∣1−2η(x)∣
- 同理可证当 η(x)⩽21 时成立,引理得证。
若数据分布 D 未知,常见的方法是通过训练集 Dm 估计条件概率,然后构建分类器
h(x)=2I(η^(x)⩾21)−1
这种基于条件概率估计的分类方法被称为插入 (plug-in) 法。
引理 6.2
对插入法的分类器 h(x) 有
R(h)−R∗⩽2Ex∼DX[∣η(x)−η^(x)∣]⩽2Ex∼DX[∣η(x)−η^(x)∣2]
证明
根据引理 6.1 可知 R(h)−R∗=Ex∼DX[∣1−2η(x)∣I(h(x)=h∗(x)],根据 h∗(x)=2I(η(x)⩾21)−1 和 h(x)=2I(η^(x)⩾21)−1
当 I(h(x)=h∗(x) 时有 I(η^(X)⩾21)=I(η(x)⩾21)
-
若 η^(x)⩾21 且 η(x)<21,则 ∣1−2η(x)∣=2∣21−η(x)∣⩽2∣η^(x)−η(x)∣
-
若 η^(x)<21 且 η(x)⩾21,则 ∣1−2η(x)∣=2∣21−η(x)∣⩽2∣η^(x)−η(x)∣
由此可得 R(h)−R∗⩽2Ex∼DX[∣η(x)−η^(x)∣],再利用 Jensen 不等式,可得 R(h)−Ex∼DX[∣η(x)−η^(x)∣]⩽Ex∼DX[∣η(x)−η^(x)∣2],引理得证。
学习算法 L 基于训练集 Dm 学习得到分类器 LDm,随着训练集规模 m 的增加,可以得到一系列分类器 LD1,LD2,…,LDm,…
定义 6.1 一致性 (consistency)
当 m→∞,若学习算法 L 满足 EDm∼Dm[R(LDm)]→R(h∗),则称学习算法 L 是一致的。
直观来说,一致性反映了在训练数据足够多的情形下,算法 L 能否学习得到贝叶斯最优分类器;在理论上,一致性刻画了学习算法 L 在无限多数据情形下学习的性能极限。
6.2 替代函数
对二分类问题,常见的方法是学习一个实值函数 f:X→R,然后根据实值函数输出函数得到分类器
h(x)={+1−1f(x)⩾0f(x)<0
实值函数 f 在分布 D 上的泛化风险为
R(f)==E(x,y)∼D[I(yf(x))]E(x,y)∼DX[η(x)I(f(x)⩽0)+(1−η(x))I(f(x)⩾0)]
考虑到 Bayes 风险和 Bayes 实值函数
R∗=R(h∗)=Ex∼DX[min{η(x),1−η(x)}]f∗∈F∗={f:当η(x)=21 时,f(x) 可以是任意的实数η(x)=21 时,f(x)(η(x)−21>0)}
给定训练集 Dm={(x1,y1),(x2,y2),…,(xm,ym)} 和实值函数 f,函数 f 在训练集 Dm 上的分类错误率为
m1i=1∑mI(yif(xi)⩽0)
其本质上是泛化风险 R(f) 的一种无偏估计,I(yif(xi)⩽0) 是非凸不连续的,因此直接优化上式是 NP 难问题。因此在现实算法设计中可以对 I(yif(xi)⩽0) 进行凸放松,用一个具有良好数学性质的凸函数 ϕ:R↦R 进行替代。考虑一般的替代函数
ℓ(f(x),y)=ϕ(yf(x))
其中 ϕ 是连续的凸函数或光滑的连续函数。替代函数本质上也是损失函数,这里使用 “替代” 主要针对 0/1 目标函数进行连续凸放松的替代。
机器学习中常用的替代函数
- 平方函数 ϕ(t)=(1−t)2
- Hinge 函数 ϕ(t)=max(0,t−1)
- 指数函数 ϕ(t)=e−t
- 对率函数 ϕ(t)=ln(1+e−t)
常见的替代函数如下图所示
替代泛化风险 (surrogate generalization risk)
- 替代泛化风险 : 给定替代函数 ϕ,它在数据分布 D 上的泛化风险,定义为
Rϕ(f)=E(x,y)∼D[ϕ(yf(x))]
Rϕ∗=min(Rϕ(f))
- 替代经验风险 (surrogate empirical risk),它是替代泛化风险 Rϕ(f) 在训练集上的无偏估计
m1i=1∑mϕ(yif(xi))
定义 6.2 替代函数一致性
随着训练数据规模 m→∞,通过优化替代经验风险得到一系列输出函数 f^1,f^2,…,f^m,… 若 Rϕ(f^m)→Rϕ∗ 时有 R(f^m)→R∗ 成立,则称替代函数 ϕ 对原目标函数具有一致性,简称替代函数一致性
下面研究满足什么性质的替代函数,才具有对原 0/1 目标函数的一致性,根据替代泛化风险和最优替代泛化风险的定义,我们有
Rϕ(f)Rϕ∗=Ex∼DX[η(x)ϕ(f(x))+(1−η(x))ϕ(−f(x))]=Ex∼DX[f(x)∈Rmin(η(x)ϕ(f(x))+(1−η(x))ϕ(−f(x)))]
从而得到替代函数的最优实值输出函数 fϕ∗(x) 为
fϕ∗(x)∈argf(x)∈Rmin(η(x)ϕ(f(x))+(1−η(x))ϕ(−f(x)))
定理 6.1 替代函数一致性的充分条件
对替代函数 ϕ,若最优实值输出函数满足 fϕ∗∈F∗,且存在常数 c>0 和 s⩾1 使
∣∣η(x)−21∣∣S⩽cS(ϕ(0)−η(x)ϕ(fϕ∗(x))−(1−η(x))ϕ(−fϕ∗(x)))
证明
回顾一致性的定义,我们发现当 R(f^m)→R∗ 与 Rϕ(f^m)→Rϕ∗ 时,替代函数满足一致性要求。
故证明分为以下三点
- 计算 R(f^m)→R∗
- 计算 Rϕ(f^m)→Rϕ∗
- 将 R(f^m)→R∗ 与 Rϕ(f^m)→Rϕ∗ 相结合
下面沿着思路划分开始证明
1. 计算 R(f^m)→R∗
回顾
R(f)=E(x,y)∼DX[η(x)I(f(x)⩽0)+(1−η(x))I(f(x)⩾0)]R∗=Ex∼DX[min{η(x),1−η(x)}]
所以
R(f)−R∗=E(x,y)∼DX[η(x)I(f(x)⩽0)+(1−η(x))I(f(x)⩾0)]−Ex∼DX[min{η(x),1−η(x)}]=Ex∼DX[Δ1(x)]
其中
Δ1(x)=η(x)I(f(x)⩽0)+(1−η(x))I(f(x)⩾0)−min{η(x),1−η(x)}
- 根据 η(x)−21 和 f(x) 的不同取值,分五种情况讨论 Δ1(x) :
- η(x)>21且 f(x)>0 时,有 Δ1(x)=0
- η(x)>21且 f(x)⩽0 时,有 Δ1(x)=2η(x)−1
- η(x)<21且 f(x)⩾0 时,有 Δ1(x)=1−2η(x)
- η(x)<21且 f(x)<0 时,有 Δ1(x)=0
- η(x)=21,Δ1(x)=0
所以有
Δ1(x)=2I(η(x)−21)f(x)≤0)∣η(x)−21∣R(f)−R∗=2E(η(x)−21)f(x)≤0[∣η(x)−21∣]
根据 Jensen 不等式 (E[X])⩽SE[XS],有
R(f)−R∗⩽2SE(η(x)−21)f(x)≤0[∣η(x)−21∣S]
定义
Δ2(x)=η(x)ϕ(f(x))+(1−η(x))ϕ(−f(x))Δ3(x)=η(x)ϕ(fϕ∗(x))+(1−η(x))ϕ(−fϕ∗(x))
在充分条件下,
R(f)−R∗⩽2cSE(η(x)−21)f(x)≤0[ϕ(0)−Δ3(x)]
2. 计算 Rϕ(f^m)→Rϕ∗
回顾
Rϕ(f)Rϕ∗=E(x,y)∼D[ϕ(yf(x)]=Ex∼DX[η(x)ϕ(f(x))+(1−η(x))ϕ(−f(x))]=Ex∼DX[f(x)∈Rmin(η(x)ϕ(f(x))+(1−η(x))ϕ(−f(x)))]
所以
Rϕ(f)−Rϕ∗=Ex∼DX[Δ2(x)−Δ3(x)]⩾E(η(x)−21)f(x)≤0[Δ2(x)−Δ3(x)]
这里 Δ3(x) 正好包含在充分条件中。
3. 将 R(f^m)→R∗ 与 Rϕ(f^m)→Rϕ∗ 相结合
R(f)−R∗⩽⩽⩽2cSE(η(x)−0.5)f(x)≤0[ϕ(0)−Δ3(x)]⋯2cSE(η(x)−0.5)f(x)≤0[Δ2(x)−Δ3(x)]2cSSRϕ(f)−Rϕ∗
下面即证明 ϕ(0)⩽Δ2(x),令 Γ(t)=η(x)ϕ(t)+(1−η(x))ϕ(−t) 现在 Γ(f(x))=Δ2(x) 和 Γ(0)=ϕ(0),根据凸函数的性质可知,当 ϕ(t) 是凸函数时 Γ(t) 也是凸函数,以及当 0∈[a,b] 时有 Γ(0)⩽max{Γ(a),Γ(b)}。下面分三种情况讨论 :
-
若 η(x)>21,则 fϕ∗(x)>0,由 (η(x)−21)f(x)⩽0 可知 f(x)⩽0,故 ϕ(0)=Γ(0)⩽max{Γ(f(x)),Γ(fϕ∗(x))},又因为 Γ(f(x))⩾Γ(fϕ∗(x)),于是 ϕ0⩽Γ(f(x))=Δ2(x)
-
若 η(x)<21,同理有 fϕ∗(x)<0,f(x)⩾0,以 ϕ(0)=Γ(0)⩽max{Γ(f(x)),Γ(fϕ∗(x))}=Γ(f(x))=Δ2(x)
-
若 η(x)=21,对凸函数 ϕ 有 ϕ(0)⩽2ϕ(f(x))+2ϕ(−f(x))=Δ2(x)
证毕。
支持向量机 (support vector machine, SVM)
支持向量机 (support vector machine, SVM) 的替代函数是 hinge 函数
ϕ(t)=max(0,t−1)
在这个实例中,我们希望证明 hinge 函数的一致性。
引理 6.3
优化 hinge 函数 ϕ(t)=max(0,1−t) 得到输出函数
fϕ∗(x)={sign(2η(x)−1)∀c∈[−1,1]η(x)=1/2η(x)=1/2
是最优实值输出函数,其对应的最优替代泛化风险为 Rϕ∗=2Ex∼DX[min(η(x),1−η(x))]。
证明
将 hinge 函数 ϕ(t)=max(0,1−t) ,代入可得
Rϕ(f)=E(x,y)∼D[ϕ(yf(x))]=Ex∼DX[η(x)ϕ(f(x))+(1−η(x))ϕ(−f(x))]=Ex∼DX[η(x)max(0,1−f(x))+(1−η(x))max(0,1+f(x))]
令 α=f(x),则有
fϕ∗(x)∈argα∈Rmin(η(x)max(0,1−α)+(1−η(x))max(0,1+α))=argα∈Rming(α)g(α)=⎩⎨⎧η(x)(1−α)1+α(1−2η(x))(1−η(x))(1+α)α⩽1α∈[−1,+1]α⩾1
根据 fϕ∗(x)=argminα∈Rg(α)
fϕ∗(x)=⎩⎨⎧1∀c∈[−1,1]−1η(x)>21η(x)=21η(x)<21
将函数 fϕ∗(x) 代入替代泛化风险可得
Rϕ∗=Rϕ(fϕ∗(x))=2Ex∼DX[min(η(x),1−η(x))]
引理得证
定理 6.2
hinge 函数 ϕ(t)=max(0,1−t) 针对原 0/1 目标函数具有替代一致性。
证明
根据引理 6.3 可知优化 hinge 函数 ϕ(t)=max(0,1−t) 所得的最优实值输出函数 fϕ∗(x)={sign(2η(x)−1)∀c∈[−1,1]η(x)=1/2η(x)=1/2,显然 fϕ∗(x)∈F∗。
给定样本 x∈X,我们有
- 当 η(x)>21 时,fϕ∗(x)=1,ϕ(0)−η(x)ϕ(fϕ∗(x))−(1−η(x))ϕ(−fϕ∗(x))=2∣∣η(x)−21∣∣
- 当 η(x)<21 时,fϕ∗(x)=−1,ϕ(0)−η(x)ϕ(fϕ∗(x))−(1−η(x))ϕ(−fϕ∗(x))=2∣∣η(x)−21∣∣
- 当 η(x)=21 时,fϕ∗(x)∈[−1,+1],ϕ(0)−η(x)ϕ(fϕ∗(x))−(1−η(x))ϕ(−fϕ∗(x))=2∣∣η(x)−21∣∣
取 c=21,s=1,由定理 6.1 可知 hinge 函数针对原 0/1 函数具有替代一致性,定理得证。
支持向量机常用的另一种替代函数是平方 hinge 函数:
ϕ(t)=(max(0,1−t))2
定理 6.3
证明平方 hinge 函数的一致性。
证明
当 fϕ∗∈F∗ 且 ∃ c>0,s⩾1 使得
∣∣η(x)−21∣∣s≤cs[ϕ(0)−η(x)ϕ(fϕ∗(x))−(1−η(x))ϕ(−fϕ∗(x))]
则替代函数 ϕ 是一致的。我们同时有 fϕ∗(x)=2η(x)−1,ϕ(fϕ∗(x))=(1−fϕ∗(x))2,将 fϕ∗(x) 代入可得
[ϕ(0)−η(x)ϕ(fϕ∗(x))−(1−η(x))ϕ(−fϕ∗(x))]=1−4η(x)(1−η(x))=4∣∣η(x)−21∣∣2
让 c=21,s=2,即可得证