一致性 ——《机器学习理论导引》第六章学习笔记(上)

597 阅读6分钟

《机器学习理论导引》笔记目录

0 感言

  没什么太多感言了,拔刀吧!(orange 主题感觉非常鲜明,最近又把替代函数剩下部分补全了,学习笔记下也应该很快就能发布了)

6.1 基本概念

一些标记

X样本空间, XRdY标签空间, Y={1,+1}DX×Y 上的联合概率分布DXX 的边缘概率分布η(x)条件概率 P(y=+1x)h:XY分类器\begin{aligned} \mathcal{X}\qquad & \text{样本空间, }\mathcal{X}\subseteq\mathbb{R}^d\\ \mathcal{Y}\qquad& \text{标签空间, }\mathcal{Y}=\{-1,+1\}\\ \mathcal{D}\qquad &\mathcal{X}\times\mathcal{Y} \text{ 上的联合概率分布}\\ \mathcal{D}_{\mathcal{X}}\qquad &\mathcal{X}\text{ 的边缘概率分布}\\ \eta(\boldsymbol{x})\qquad & \text{条件概率 }P(y=+1|\boldsymbol{x})\\ \boldsymbol{h}:\mathcal{X}\rightarrow\mathcal{Y}\qquad & \text{分类器}\\ \end{aligned}

泛化风险

  • 泛化风险 : 分类器在分布 D\mathcal{D} 上的分类错误率
R(h)=P(x,y)D(h(x)y)=E(x,y)D[I(h(x)y)]=ExDx[η(x)I(h(x)+1)+(1η(x))I(h(x)1)]=ExDx[η(x)I(h(x)=1)+(1η(x))I(h(x)=+1)]\begin{aligned} R(h) & =P_{(x, y) \sim \mathcal{D}}(h(x) \neq y)=E_{(x, y) \sim \mathcal{D}}[\mathbb{I}(h(x) \neq y)] \\ & =E_{x \sim D_x}[\eta(x) \mathbb{I}(h(x) \neq+1)+(1-\eta(x)) \mathbb{I}(h(x) \neq-1)] \\ & =E_{x \sim D_x}[\eta(x) \mathbb{I}(h(x)=-1)+(1-\eta(x)) \mathbb{I}(h(x)=+1)] \end{aligned}

Bayes 分类器

  • 贝叶斯最优分类器 h\boldsymbol{h}^* : 在分布 D\mathcal{D} 上取得最小错误率的分类器 (简称贝叶斯分类器)
h=argminhR(h)\boldsymbol{h}^*=\arg\min_{h} R(h)

Bayes 风险

  • 贝叶斯风险 RR^* : 贝叶斯分类器的泛化风险
R=R(h)=minh{R(h)}=ExDX[minh(x){η(x)I(h(x)=1)+(1η(x))I(h(x)=+1)}]\begin{aligned} R^* & =R\left(h^*\right) \\ & =\min _h\{R(h)\} \\ & =\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}_{\mathcal{X}}}\left[\min _{h(\boldsymbol{x})}\{\eta(\boldsymbol{x}) \mathbb{I}(h(\boldsymbol{x})=-1)+(1-\eta(\boldsymbol{x})) \mathbb{I}(h(\boldsymbol{x})=+1)\}\right] \end{aligned}
  • 若分布 D\mathcal{D} 已知 (即 η(x)\eta(\boldsymbol{x}) 已知),则可以直接根据分布给出贝叶斯分类器和贝叶斯风险:
η(x)1η(x)\eta(\boldsymbol{x})\geqslant1-\eta(\boldsymbol{x})η(x)<1η(x)\eta(\boldsymbol{x})<1-\eta(\boldsymbol{x})
η(x)\eta(\boldsymbol{x})12\geqslant\frac{1}{2}<12<\frac{1}{2}
h(x)h^*(\boldsymbol{x})+1+11-1
RR^*1η(x)1-\eta(\boldsymbol{x})η(x)\eta(\boldsymbol{x})
  • 因此,
h(x)=2I(η(x12))1R=R(h)=ExDx[min{η(x),1η(x)}]h^*(\boldsymbol{x})=2\mathbb{I}(\eta(\boldsymbol{x}\geqslant\frac{1}{2}))-1\\ R^*=R(h^*)=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{x}}}[\min\{\eta(\boldsymbol{x}),1-\eta(\boldsymbol{x})\}]

引理 6.1 (贝叶斯最优分类器 h\boldsymbol{h}^* 和一般的分类器 h\boldsymbol{h} 的关系)

  h:XY\forall h:\mathcal{X}\rightarrow\mathcal{Y} 和贝叶斯最优分类器 hh^*,满足

R(h)R=ExDX[12η(x)I(h(x)h(x)]R(h)-R^*=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\lvert1-2\eta(x)\rvert\mathbb{I}(h(x)\ne h^*(x)\right]

证明

  对任意样本 xXx\in\mathcal{X},令

Δ(x)=η(x)I(h(x)=1)+(1η(x))I(h(x)=+1)η(x)I(h(x)=1)(1η(x))I(h(x)=+1)\begin{aligned} \Delta(x)&=\eta(x)\mathbb{I}(h(x)=-1)+(1-\eta(x))\mathbb{I}(h(x)=+1)\\ &-\eta(x)\mathbb{I}(h^*(x)=-1)-(1-\eta(x))\mathbb{I}(h^*(x)=+1) \end{aligned}

  然后有

R(h)R=ExDX[η(x)I(h(x)=1)+(1η(x))I(h(x)=+1)]ExDX[η(x)I(h(x)=1)+(1η(x))I(h(x)=+1)]=ExDX[Δ(x)]\begin{aligned} R(h)-R^* & =\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\eta(x)\mathbb{I}(h(x)=-1)+(1-\eta(x))\mathbb{I}(h(x)=+1)\right]\\ &-\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\eta(x)\mathbb{I}(h^*(x)=-1)+(1-\eta(x))\mathbb{I}(h^*(x)=+1)\right]\\ &=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\Delta(x)\right] \end{aligned}
  • η(x)>12\eta(x)>\frac{1}{2} 时,则 h(x)=+1h^*(x)=+1,于是当 h(x)=1h(x)=-1 时,Δ(x)=2η(x)1\Delta(x)=2\eta(x)-1,当 h(x)=+1h(x)=+1 时,Δ(x)=0\Delta(x)=0,因此 Δ(x)=I(h(x)h(x))12η(x)\Delta(x)=\mathbb{I}(h(x)\ne h^*(x))\lvert1-2\eta(x)\rvert
  • 同理可证当 η(x)12\eta(x)\leqslant\frac{1}{2} 时成立,引理得证。

  若数据分布 D\mathcal{D} 未知,常见的方法是通过训练集 Dm\mathcal{D}_m 估计条件概率,然后构建分类器

h(x)=2I(η^(x)12)1h(x)=2\mathbb{I}\left(\hat{\eta}(x)\geqslant\frac{1}{2}\right)-1

  这种基于条件概率估计的分类方法被称为插入 (plug-in) 法。


引理 6.2

  对插入法的分类器 h(x)h(x)

R(h)R2ExDX[η(x)η^(x)]2ExDX[η(x)η^(x)2]R(h)-R^*\leqslant2\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\lvert\eta(x)-\hat{\eta}(x)\rvert\right]\leqslant2\sqrt{\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\lvert\eta(x)-\hat{\eta}(x)\rvert^2\right]}

证明

  根据引理 6.1 可知 R(h)R=ExDX[12η(x)I(h(x)h(x)]R(h)-R^*=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\lvert1-2\eta(x)\rvert\mathbb{I}(h(x)\ne h^*(x)\right],根据 h(x)=2I(η(x)12)1h^*(x)=2\mathbb{I}(\eta(x)\geqslant\frac{1}{2})-1h(x)=2I(η^(x)12)1h(x)=2\mathbb{I}(\hat{\eta}(x)\geqslant\frac{1}{2})-1

  当 I(h(x)h(x)\mathbb{I}(h(x)\ne h^*(x) 时有 I(η^(X)12)I(η(x)12)\mathbb{I}(\hat{\eta}(X)\geqslant\frac{1}{2})\ne\mathbb{I}(\eta(x)\geqslant\frac{1}{2})

  • η^(x)12\hat{\eta}(x)\geqslant\frac{1}{2}η(x)<12\eta(x)<\frac{1}{2},则 12η(x)=212η(x)2η^(x)η(x)\lvert1-2\eta(x)\rvert=2\lvert\frac{1}{2}-\eta(x)\rvert\leqslant2\lvert\hat{\eta}(x)-\eta(x)\rvert

  • η^(x)<12\hat{\eta}(x)<\frac{1}{2}η(x)12\eta(x)\geqslant\frac{1}{2},则 12η(x)=212η(x)2η^(x)η(x)\lvert1-2\eta(x)\rvert=2\lvert\frac{1}{2}-\eta(x)\rvert\leqslant2\lvert\hat{\eta}(x)-\eta(x)\rvert

  由此可得 R(h)R2ExDX[η(x)η^(x)]R(h)-R^*\leqslant2\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\lvert\eta(x)-\hat{\eta}(x)\rvert\right],再利用 Jensen 不等式,可得 R(h)ExDX[η(x)η^(x)]ExDX[η(x)η^(x)2]R(h)-\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\lvert\eta(x)-\hat{\eta}(x)\rvert\right]\leqslant\sqrt{\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\lvert\eta(x)-\hat{\eta}(x)\rvert^2\right]},引理得证。


  学习算法 L\mathfrak{L} 基于训练集 DmD_m 学习得到分类器 LDm\mathfrak{L}_{D_m},随着训练集规模 mm 的增加,可以得到一系列分类器 LD1,LD2,,LDm,\mathfrak{L}_{D_1},\mathfrak{L}_{D_2},\ldots,\mathfrak{L}_{D_m},\ldots

定义 6.1 一致性 (consistency)

  当 mm\rightarrow\infty,若学习算法 L\mathfrak{L} 满足 EDmDm[R(LDm)]R(h)\mathbb{E}_{D_m\sim\mathcal{D}^m}\left[R(\mathfrak{L}_{D_m})\right]\rightarrow R(h^*),则称学习算法 L\mathfrak{L} 是一致的。

  直观来说,一致性反映了在训练数据足够多的情形下,算法 L\mathfrak{L} 能否学习得到贝叶斯最优分类器;在理论上,一致性刻画了学习算法 L\mathfrak{L} 在无限多数据情形下学习的性能极限。

6.2 替代函数

  对二分类问题,常见的方法是学习一个实值函数 f:XRf:\mathcal{X}\rightarrow\mathbb{R},然后根据实值函数输出函数得到分类器

h(x)={+1f(x)01f(x)<0h(x)=\begin{cases} +1 & f(x)\geqslant0\\ -1 & f(x)<0 \end{cases}

  实值函数 ff 在分布 D\mathcal{D} 上的泛化风险为

R(f)=E(x,y)D[I(yf(x))]=E(x,y)DX[η(x)I(f(x)0)+(1η(x))I(f(x)0)]\begin{aligned} R(f)=&\mathbb{E}_{(\boldsymbol{x},\boldsymbol{y})\sim\mathcal{D}}\left[\mathbb{I}(\boldsymbol{y}f(\boldsymbol{x}))\right]\\ =&\mathbb{E}_{(\boldsymbol{x},\boldsymbol{y})\sim\mathcal{D}_{\mathcal{X}}}\left[\eta(\boldsymbol{x})\mathbb{I}(f(\boldsymbol{x})\leqslant0)+(1-\eta(\boldsymbol{x}))\mathbb{I}(f(\boldsymbol{x})\geqslant0)\right]\\ \end{aligned}

  考虑到 Bayes 风险和 Bayes 实值函数

R=R(h)=ExDX[min{η(x),1η(x)}]fF={f:η(x)=12 时,f(x) 可以是任意的实数η(x)12 时,f(x)(η(x)12>0)}R^*=R(h^*)=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}[\min\{\eta(\boldsymbol{x}),1-\eta(\boldsymbol{x})\}]\\ \begin{aligned} f^*\in\mathcal{F}^*=\{f:\text{当}& \eta(x)=\frac{1}{2}\text{ 时,}f(x)\text{ 可以是任意的实数}\\ & \eta(x)\ne\frac{1}{2}\text{ 时,}f(x)\left(\eta(x)-\frac{1}{2}>0\right)\} \end{aligned}

  给定训练集 Dm={(x1,y1),(x2,y2),,(xm,ym)}D_m=\{(x_1,y_1),(x_2,y_2),\ldots,(x_m,y_m)\} 和实值函数 ff,函数 ff 在训练集 DmD_m 上的分类错误率为

1mi=1mI(yif(xi)0)\frac{1}{m}\sum_{i=1}^m\mathbb{I}(y_if(x_i)\leqslant0)

  其本质上是泛化风险 R(f)R(f) 的一种无偏估计,I(yif(xi)0)\mathbb{I}(y_if(x_i)\leqslant0) 是非凸不连续的,因此直接优化上式是 NP 难问题。因此在现实算法设计中可以对 I(yif(xi)0)\mathbb{I}(y_if(x_i)\leqslant0) 进行凸放松,用一个具有良好数学性质的凸函数 ϕ:RR\phi:\mathbb{R}\mapsto\mathbb{R} 进行替代。考虑一般的替代函数

(f(x),y)=ϕ(yf(x))\ell(f(\boldsymbol{x}),\boldsymbol{y})=\phi(\boldsymbol{y}f(\boldsymbol{x}))

  其中 ϕ\phi 是连续的凸函数或光滑的连续函数。替代函数本质上也是损失函数,这里使用 “替代” 主要针对 0/10/1 目标函数进行连续凸放松的替代。

机器学习中常用的替代函数

  • 平方函数 ϕ(t)=(1t)2\phi(t)=(1-t)^2
  • Hinge 函数 ϕ(t)=max(0,t1)\phi(t)=\max(0,t-1)
  • 指数函数 ϕ(t)=et\phi(t)=e^{-t}
  • 对率函数 ϕ(t)=ln(1+et)\phi(t)=\ln(1+e^{-t})

  常见的替代函数如下图所示

替代泛化风险 (surrogate generalization risk)

  • 替代泛化风险 : 给定替代函数 ϕ\phi,它在数据分布 D\mathcal{D} 上的泛化风险,定义为
Rϕ(f)=E(x,y)D[ϕ(yf(x))]R_{\phi}(f)=\mathbb{E}_{(\boldsymbol{x},\boldsymbol{y})\sim\mathcal{D}}\left[\phi(\boldsymbol{y}f(\boldsymbol{x}))\right]
  • 最优替代泛化风险 :
Rϕ=min(Rϕ(f))R_{\phi}^*=\min\left(R_{\phi}(f)\right)
  • 替代经验风险 (surrogate empirical risk),它是替代泛化风险 Rϕ(f)R_{\phi}(f) 在训练集上的无偏估计
1mi=1mϕ(yif(xi))\frac{1}{m}\sum_{i=1}^m\phi(y_if(x_i))

定义 6.2 替代函数一致性

  随着训练数据规模 mm\rightarrow\infty,通过优化替代经验风险得到一系列输出函数 f^1,f^2,,f^m,\hat{f}_1,\hat{f}_2,\ldots,\hat{f}_m,\ldotsRϕ(f^m)RϕR_{\phi}(\hat{f}_m)\rightarrow R_{\phi}^* 时有 R(f^m)RR(\hat{f}_m)\rightarrow R^* 成立,则称替代函数 ϕ\phi 对原目标函数具有一致性,简称替代函数一致性

  下面研究满足什么性质的替代函数,才具有对原 0/10/1 目标函数的一致性,根据替代泛化风险和最优替代泛化风险的定义,我们有

Rϕ(f)=ExDX[η(x)ϕ(f(x))+(1η(x))ϕ(f(x))]Rϕ=ExDX[minf(x)R(η(x)ϕ(f(x))+(1η(x))ϕ(f(x)))]\begin{aligned} R_{\phi}(f)&=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\eta(x)\phi(f(x))+(1-\eta(x))\phi(-f(x))\right]\\ R_{\phi}^*&=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\min_{f(x)\in\mathbb{R}}\left(\eta(x)\phi(f(x))+(1-\eta(x))\phi(-f(x))\right)\right] \end{aligned}

  从而得到替代函数的最优实值输出函数 fϕ(x)f_{\phi}^*(x)

fϕ(x)argminf(x)R(η(x)ϕ(f(x))+(1η(x))ϕ(f(x)))f_\phi^*(\boldsymbol{x}) \in \arg \min _{f(\boldsymbol{x}) \in \mathbb{R}}(\eta(\boldsymbol{x}) \phi(f(\boldsymbol{x}))+(1-\eta(\boldsymbol{x})) \phi(-f(\boldsymbol{x})))

定理 6.1 替代函数一致性的充分条件

  对替代函数 ϕ\phi,若最优实值输出函数满足 fϕFf_{\phi}^*\in\mathcal{F}^*,且存在常数 c>0c>0s1s\geqslant1 使

η(x)12ScS(ϕ(0)η(x)ϕ(fϕ(x))(1η(x))ϕ(fϕ(x)))\left\lvert\eta(x)-\frac{1}{2}\right\rvert^{\mathcal{S}}\leqslant c^{\mathcal{S}}\left(\phi(0)-\eta(x) \phi\left(f_\phi^*(x)\right)-(1-\eta(x)) \phi\left(-f_\phi^*(x)\right)\right)

证明

  回顾一致性的定义,我们发现当 R(f^m)RR(\hat{f}_m)\rightarrow R^*Rϕ(f^m)RϕR_{\phi}(\hat{f}_m)\rightarrow R^*_{\phi} 时,替代函数满足一致性要求。

  故证明分为以下三点

  • 计算 R(f^m)RR(\hat{f}_m)\rightarrow R^*
  • 计算 Rϕ(f^m)RϕR_{\phi}(\hat{f}_m)\rightarrow R^*_{\phi}
  • R(f^m)RR(\hat{f}_m)\rightarrow R^*Rϕ(f^m)RϕR_{\phi}(\hat{f}_m)\rightarrow R^*_{\phi} 相结合

  下面沿着思路划分开始证明

1. 计算 R(f^m)RR(\hat{f}_m)\rightarrow R^*

  回顾

R(f)=E(x,y)DX[η(x)I(f(x)0)+(1η(x))I(f(x)0)]R=ExDX[min{η(x),1η(x)}]R(f) =\mathbb{E}_{(\boldsymbol{x},\boldsymbol{y})\sim\mathcal{D}_{\mathcal{X}}}\left[\eta(\boldsymbol{x})\mathbb{I}(f(\boldsymbol{x})\leqslant0)+(1-\eta(\boldsymbol{x}))\mathbb{I}(f(\boldsymbol{x})\geqslant0)\right]\\ R^*=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}[\min\{\eta(\boldsymbol{x}),1-\eta(\boldsymbol{x})\}]

  所以

R(f)R=E(x,y)DX[η(x)I(f(x)0)+(1η(x))I(f(x)0)]ExDX[min{η(x),1η(x)}]=ExDX[Δ1(x)]\begin{aligned} R(f)-R^*&=\mathbb{E}_{(\boldsymbol{x},\boldsymbol{y})\sim\mathcal{D}_{\mathcal{X}}}\left[\eta(\boldsymbol{x})\mathbb{I}(f(\boldsymbol{x})\leqslant0)+(1-\eta(\boldsymbol{x}))\mathbb{I}(f(\boldsymbol{x})\geqslant0)\right]\\ &\qquad-\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}[\min\{\eta(\boldsymbol{x}),1-\eta(\boldsymbol{x})\}]\\ &=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\Delta_1(x)\right]\\ \end{aligned}

  其中

Δ1(x)=η(x)I(f(x)0)+(1η(x))I(f(x)0)min{η(x),1η(x)}\Delta_1(x)=\eta(x)\mathbb{I}(f(x)\leqslant0)+(1-\eta(x))\mathbb{I}(f(x)\geqslant0)-\min\{\eta(x),1-\eta(x)\}
  • 根据 η(x)12\eta(x)-\frac{1}{2}f(x)f(x) 的不同取值,分五种情况讨论 Δ1(x)\Delta_1(x) :
    • η(x)>12\eta(x)>\frac{1}{2}f(x)>0f(x)>0 时,有 Δ1(x)=0\Delta_1(x)=0
    • η(x)>12\eta(x)>\frac{1}{2}f(x)0f(x)\leqslant0 时,有 Δ1(x)=2η(x)1\Delta_1(x)=2\eta(x)-1
    • η(x)<12\eta(x)<\frac{1}{2}f(x)0f(x)\geqslant0 时,有 Δ1(x)=12η(x)\Delta_1(x)=1-2\eta(x)
    • η(x)<12\eta(x)<\frac{1}{2}f(x)<0f(x)<0 时,有 Δ1(x)=0\Delta_1(x)=0
    • η(x)=12\eta(x)=\frac{1}{2}Δ1(x)=0\Delta_1(x)=0

  所以有

Δ1(x)=2I(η(x)12)f(x)0)η(x)12R(f)R=2E(η(x)12)f(x)0[η(x)12]\begin{aligned} & \left.\Delta_1(\boldsymbol{x})=2 \mathbb{I}(\eta(\boldsymbol{x})-\frac{1}{2}) f(\boldsymbol{x}) \leq 0\right)|\eta(\boldsymbol{x})-\frac{1}{2}| \\ & R(f)-R^*=2 \mathbb{E}_{(\eta(\boldsymbol{x})-\frac{1}{2}) f(\boldsymbol{x}) \leq 0}[|\eta(\boldsymbol{x})-\frac{1}{2}|] \end{aligned}

  根据 Jensen 不等式 (E[X])E[XS]S(\mathbb{E}[X])\leqslant\sqrt[\mathcal{S}]{\mathbb{E}[X^{\mathcal{S}}]},有

R(f)R2E(η(x)12)f(x)0[η(x)12S]SR(f)-R^*\leqslant2\sqrt[\mathcal{S}]{\mathbb{E}_{(\eta(\boldsymbol{x})-\frac{1}{2}) f(\boldsymbol{x}) \leq 0}[|\eta(\boldsymbol{x})-\frac{1}{2}|^{\mathcal{S}}]}

  定义

Δ2(x)=η(x)ϕ(f(x))+(1η(x))ϕ(f(x))Δ3(x)=η(x)ϕ(fϕ(x))+(1η(x))ϕ(fϕ(x))\begin{gathered} \Delta_2(\boldsymbol{x})=\eta(\boldsymbol{x}) \phi(f(\boldsymbol{x}))+(1-\eta(\boldsymbol{x})) \phi(-f(\boldsymbol{x})) \\ \Delta_3(\boldsymbol{x})=\eta(\boldsymbol{x}) \phi\left(f_\phi^*(\boldsymbol{x})\right)+(1-\eta(\boldsymbol{x})) \phi\left(-f_\phi^*(\boldsymbol{x})\right) \end{gathered}

  在充分条件下,

R(f)R2cE(η(x)12)f(x)0[ϕ(0)Δ3(x)]SR(f)-R^*\leqslant2c\sqrt[\mathcal{S}]{\mathbb{E}_{(\eta(\boldsymbol{x})-\frac{1}{2}) f(\boldsymbol{x}) \leq 0}[\phi(0)-\Delta_3(\boldsymbol{x})]}

2. 计算 Rϕ(f^m)RϕR_{\phi}(\hat{f}_m)\rightarrow R^*_{\phi}

  回顾

Rϕ(f)=E(x,y)D[ϕ(yf(x)]=ExDX[η(x)ϕ(f(x))+(1η(x))ϕ(f(x))]Rϕ=ExDX[minf(x)R(η(x)ϕ(f(x))+(1η(x))ϕ(f(x)))]\begin{aligned} R_{\phi}(f)&=\mathbb{E}_{(\boldsymbol{x},\boldsymbol{y})\sim\mathcal{D}}\left[\phi(yf(x)\right]\\ &=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\eta(x)\phi(f(x))+(1-\eta(x))\phi(-f(x))\right]\\ R_{\phi}^*&=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}_{\mathcal{X}}}\left[\min_{f(x)\in\mathbb{R}}\left(\eta(x)\phi(f(x))+(1-\eta(x))\phi(-f(x))\right)\right] \end{aligned}

  所以

Rϕ(f)Rϕ=ExDX[Δ2(x)Δ3(x)]E(η(x)12)f(x)0[Δ2(x)Δ3(x)]\begin{aligned} R_{\phi}(f)-R_{\phi}^*&=\mathbb{E}_{x\sim\mathcal{D}_{\mathcal{X}}}[\Delta_2(x)-\Delta_3(x)]\\ &\geqslant\mathbb{E}_{(\eta(\boldsymbol{x})-\frac{1}{2}) f(\boldsymbol{x}) \leq 0}[\Delta_2(x)-\Delta_3(x)] \end{aligned}

  这里 Δ3(x)\Delta_3(x) 正好包含在充分条件中。

3. 将 R(f^m)RR(\hat{f}_m)\rightarrow R^*Rϕ(f^m)RϕR_{\phi}(\hat{f}_m)\rightarrow R^*_{\phi} 相结合

R(f)R2cE(η(x)0.5)f(x)0[ϕ(0)Δ3(x)]S2cE(η(x)0.5)f(x)0[Δ2(x)Δ3(x)]S2cSRϕ(f)RϕS\begin{aligned} R(f)-R^* \leqslant & 2 c \sqrt[\mathcal{S}]{\mathbb{E}_{(\eta(\boldsymbol{x})-0.5) f(\boldsymbol{x}) \leq 0}\left[\phi(0)-\Delta_3(\boldsymbol{x})\right]} \\ & \cdots \\ \leqslant & 2 c \sqrt[\mathcal{S}]{\mathbb{E}_{(\eta(\boldsymbol{x})-0.5) f(\boldsymbol{x}) \leq 0}\left[\Delta_2(\boldsymbol{x})-\Delta_3(\boldsymbol{x})\right]} \\ \leqslant & 2 c^\mathcal{S} \sqrt[\mathcal{S}]{R_\phi(f)-R_\phi^*} \end{aligned}

  下面即证明 ϕ(0)Δ2(x)\phi(0)\leqslant\Delta_2(x),令 Γ(t)=η(x)ϕ(t)+(1η(x))ϕ(t)\Gamma(t)=\eta(\boldsymbol{x}) \phi(t)+(1-\eta(\boldsymbol{x})) \phi(-t) 现在 Γ(f(x))=Δ2(x)\Gamma(f(x))=\Delta_2(x)Γ(0)=ϕ(0)\Gamma(0)=\phi(0),根据凸函数的性质可知,当 ϕ(t)\phi(t) 是凸函数时 Γ(t)\Gamma(t) 也是凸函数,以及当 0[a,b]0\in[a,b] 时有 Γ(0)max{Γ(a),Γ(b)}\Gamma(0)\leqslant\max\{\Gamma(a),\Gamma(b)\}。下面分三种情况讨论 :

  • η(x)>12\eta(x)>\frac{1}{2},则 fϕ(x)>0f^*_{\phi}(x)>0,由 (η(x)12)f(x)0\left(\eta(x)-\frac{1}{2}\right)f(x)\leqslant0 可知 f(x)0f(x)\leqslant0,故 ϕ(0)=Γ(0)max{Γ(f(x)),Γ(fϕ(x))}\phi(0)=\Gamma(0)\leqslant\max\{\Gamma(f(x)),\Gamma(f_{\phi}^∗(x))\},又因为 Γ(f(x))Γ(fϕ(x))\Gamma(f(x))\geqslant\Gamma(f_{\phi}^∗(x)),于是 ϕ0Γ(f(x))=Δ2(x)\phi_0\leqslant\Gamma(f(x))=\Delta_2(x)

  • η(x)<12\eta(x)<\frac{1}{2},同理有 fϕ(x)<0,f(x)0f^*_{\phi}(x)<0,f(x)\geqslant0,以 ϕ(0)=Γ(0)max{Γ(f(x)),Γ(fϕ(x))}=Γ(f(x))=Δ2(x)\phi(0)=\Gamma(0)\leqslant\max\{\Gamma(f(x)),\Gamma(f_{\phi}^∗(x))\}=\Gamma(f(x))=\Delta_2(x)

  • η(x)=12\eta(x)=\frac{1}{2},对凸函数 ϕ\phiϕ(0)ϕ(f(x))2+ϕ(f(x))2=Δ2(x)\phi(0)\leqslant\frac{\phi(f(x))}{2}+\frac{\phi(-f(x))}{2}=\Delta_2(x)

证毕。

支持向量机 (support vector machine, SVM)

  支持向量机 (support vector machine, SVM) 的替代函数是 hinge 函数

ϕ(t)=max(0,t1)\phi(t)=\max(0,t-1)

  在这个实例中,我们希望证明 hinge 函数的一致性


引理 6.3

  优化 hinge 函数 ϕ(t)=max(0,1t)\phi(t)=\max(0,1-t) 得到输出函数

fϕ(x)={sign(2η(x)1)η(x)1/2c[1,1]η(x)=1/2f_\phi^*(x)= \begin{cases}\operatorname{sign}(2 \eta(x)-1) & \eta(x) \neq 1 / 2 \\ \forall c \in[-1,1] & \eta(x)=1 / 2\end{cases}

  是最优实值输出函数,其对应的最优替代泛化风险为 Rϕ=2ExDX[min(η(x),1η(x))]R_{\phi}^*=2\mathbb{E}_{x \sim \mathcal{D}_{\mathcal{X}}}[\min\left(\eta(x),1-\eta(x)\right)]

证明

   将 hinge 函数 ϕ(t)=max(0,1t)\phi(t)=\max(0,1-t) ,代入可得

Rϕ(f)=E(x,y)D[ϕ(yf(x))]=ExDX[η(x)ϕ(f(x))+(1η(x))ϕ(f(x))]=ExDX[η(x)max(0,1f(x))+(1η(x))max(0,1+f(x))]\begin{aligned} R_\phi(f) & =\mathbb{E}_{(\boldsymbol{x}, y) \sim \mathcal{D}}[\phi(y f(\boldsymbol{x}))] \\ & =\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}_{\mathcal{X}}}[\eta(\boldsymbol{x}) \phi(f(\boldsymbol{x}))+(1-\eta(\boldsymbol{x})) \phi(-f(\boldsymbol{x}))] \\ & =\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}_{\mathcal{X}}}[\eta(\boldsymbol{x}) \max (0,1-f(\boldsymbol{x}))+(1-\eta(\boldsymbol{x})) \max (0,1+f(\boldsymbol{x}))] \end{aligned}

  令 α=f(x)\alpha=f(\boldsymbol{x}),则有

fϕ(x)argminαR(η(x)max(0,1α)+(1η(x))max(0,1+α))=argminαRg(α)g(α)={η(x)(1α)α11+α(12η(x))α[1,+1](1η(x))(1+α)α1f_\phi^*(\boldsymbol{x}) \in \arg \min _{\alpha \in \mathbb{R}}(\eta(\boldsymbol{x}) \max (0,1-\alpha)+(1-\eta(\boldsymbol{x})) \max (0,1+\alpha))\\=\arg \min _{\alpha \in \mathbb{R}} g(\alpha)\\ g(\alpha)=\begin{cases} \eta(\boldsymbol{x})(1-\alpha)&\alpha\leqslant1\\ 1+\alpha(1-2\eta(\boldsymbol{x}))&\alpha\in[-1,+1]\\ (1-\eta(\boldsymbol{x}))(1+\alpha)&\alpha\geqslant1 \end{cases}

  根据 fϕ(x)=arg minαRg(α)f_{\phi}^*(x)=\argmin_{\alpha\in\mathbb{R}}g(\alpha)

fϕ(x)={1η(x)>12c[1,1]η(x)=121η(x)<12f_{\phi}^*(x)=\begin{cases} 1&\eta(x)>\frac{1}{2}\\ \forall c\in[-1,1]&\eta(x)=\frac{1}{2}\\ -1&\eta(x)<\frac{1}{2}\\ \end{cases}

  将函数 fϕ(x)f_{\phi}^*(x) 代入替代泛化风险可得

Rϕ=Rϕ(fϕ(x))=2ExDX[min(η(x),1η(x))]R_{\phi}^*=R_{\phi}\left(f_{\phi}^*(x)\right)=2\mathbb{E}_{x \sim \mathcal{D}_{\mathcal{X}}}[\min\left(\eta(x),1-\eta(x)\right)]

  引理得证


定理 6.2

  hinge 函数 ϕ(t)=max(0,1t)\phi(t)=\max(0,1-t) 针对原 0/10/1 目标函数具有替代一致性。

证明

  根据引理 6.3 可知优化 hinge 函数 ϕ(t)=max(0,1t)\phi(t)= \max(0,1-t) 所得的最优实值输出函数 fϕ(x)={sign(2η(x)1)η(x)1/2c[1,1]η(x)=1/2f_\phi^*(x)= \begin{cases}\operatorname{sign}(2 \eta(x)-1) & \eta(x) \neq 1 / 2 \\ \forall c \in[-1,1] & \eta(x)=1 / 2\end{cases},显然 fϕ(x)Ff_\phi^*(x)\in\mathcal{F}^*

  给定样本 xXx\in\mathcal{X},我们有

  • η(x)>12\eta(x)>\frac{1}{2} 时,fϕ(x)=1f_\phi^*(x)=1ϕ(0)η(x)ϕ(fϕ(x))(1η(x))ϕ(fϕ(x))=2η(x)12\phi(0)-\eta(x)\phi\left(f_\phi^*(x)\right)-(1-\eta(x))\phi\left(-f_\phi^*(x)\right)=2\left\lvert\eta(x)-\frac{1}{2}\right\rvert
  • η(x)<12\eta(x)<\frac{1}{2} 时,fϕ(x)=1f_\phi^*(x)=-1ϕ(0)η(x)ϕ(fϕ(x))(1η(x))ϕ(fϕ(x))=2η(x)12\phi(0)-\eta(x)\phi\left(f_\phi^*(x)\right)-(1-\eta(x))\phi\left(-f_\phi^*(x)\right)=2\left\lvert\eta(x)-\frac{1}{2}\right\rvert
  • η(x)=12\eta(x)=\frac{1}{2} 时,fϕ(x)[1,+1]f_\phi^*(x)\in[-1,+1]ϕ(0)η(x)ϕ(fϕ(x))(1η(x))ϕ(fϕ(x))=2η(x)12\phi(0)-\eta(x)\phi\left(f_\phi^*(x)\right)-(1-\eta(x))\phi\left(-f_\phi^*(x)\right)=2\left\lvert\eta(x)-\frac{1}{2}\right\rvert

  取 c=12,s=1c=\frac{1}{2},s=1,由定理 6.1 可知 hinge 函数针对原 0/10/1 函数具有替代一致性,定理得证。


  支持向量机常用的另一种替代函数是平方 hinge 函数:

ϕ(t)=(max(0,1t))2\phi(t)=(\max(0,1-t))^2

定理 6.3

  证明平方 hinge 函数的一致性。

证明

  当 fϕFf^*_{\phi}\in\mathcal{F}^* c>0,s1\exists\ c>0,s\geqslant1 使得

η(x)12scs[ϕ(0)η(x)ϕ(fϕ(x))(1η(x))ϕ(fϕ(x))]\left|\eta(\boldsymbol{x})-\frac{1}{2}\right|^s \leq c^s\left[\phi(0)-\eta(\boldsymbol{x}) \phi\left(f_\phi^*(\boldsymbol{x})\right)-(1-\eta(\boldsymbol{x})) \phi\left(-f_\phi^*(\boldsymbol{x})\right)\right]

  则替代函数 ϕ\phi 是一致的。我们同时有 fϕ(x)=2η(x)1,ϕ(fϕ(x))=(1fϕ(x))2f^*_{\phi}(x)=2\eta(x)-1,\phi(f^*_{\phi}(x))=(1-f^*_{\phi}(x))^2,将 fϕ(x)f^*_{\phi}(x) 代入可得

[ϕ(0)η(x)ϕ(fϕ(x))(1η(x))ϕ(fϕ(x))]=14η(x)(1η(x))=4η(x)122\left[\phi(0)-\eta(\boldsymbol{x}) \phi\left(f_\phi^*(\boldsymbol{x})\right)-(1-\eta(\boldsymbol{x})) \phi\left(-f_\phi^*(\boldsymbol{x})\right)\right]\\ =1-4\eta(\boldsymbol{x})(1-\eta(\boldsymbol{x}))=4\left\lvert\eta(\boldsymbol{x})-\frac{1}{2}\right\rvert^2

  让 c=12,s=2c=\frac{1}{2},s=2,即可得证