预备知识 ——《机器学习理论导引》第一章学习笔记(上)

367 阅读10分钟

《机器学习理论导引》笔记目录

0 感言

  在整理这一章时自己也是很迷茫的,感觉数学公式都看着很眼熟但是就是不会证明,以及感觉中间感觉如果按照自己这样码字下去将是一个工程量巨大的活。但是最后思来想去还是觉得:没有痛苦的学习就欠缺理解,数学公式如果浮于表面而不深入理解则在理解后续中将更加困难,想要深入学习就不能自己骗自己。幸运的是公示在维基百科和一些专栏中有证明,事情变得明朗起来了!前面的大部分基础的公式都进行了自己证明的复现,后面的希望在自己看到相关工作的时候知道回来翻一翻看一看。

  同时一开始想的是一章一个笔记,但是实在是工程量巨大,所以每章分成上、下或者上、中、下以保持整体可读性以及自己更文积极性

2022.4.15更新日志

  找到了组里之前同学做的PPT,发现有了很好的已有材料可以来借鉴与丰富,在此表示感谢!

1.1 函数的性质

1.1.1 凸集 (convex set)

两个凸集 CC 中的点 x1,x2Cx_1,x_2\in C连线仍属于凸集 CC,即 θx1+(1θ)x2C,  0θ1\theta x_1+(1-\theta)x_2\in C, \ \forall \ 0\leqslant\theta\leqslant1

1.1.2 凸函数 (convex function)

对定义在凸集上的函数 f:RdRf:\mathbb{R}^d\mapsto \mathbb{R},令 Ψ\Psi 表示其定义域,若 x,zΨ\forall \bold x,\bold z\in \Psi 满足

f(θx+(1θ)z)θf(x)+(1θ)f(z)  ( 0θ1)f(\theta\bold{x}+(1-\theta)\bold{z})\leqslant\theta f(\bold{x})+(1-\theta)f(\bold{z})\ \ (\forall\ 0\leqslant\theta\leqslant1)

则称 f()f(\cdot)是一个凸函数

图例1.凸函数的示意图

1.1.3 凹函数 (concave function)

凸函数中的不等式反号,即

f(θx+(1θ)z)θf(x)+(1θ)f(z)  ( 0θ1)f(\theta\bold{x}+(1-\theta)\bold{z})\geqslant\theta f(\bold{x})+(1-\theta)f(\bold{z})\ \ (\forall\ 0\leqslant\theta\leqslant1)

则称 f()f(\cdot)是一个凹函数

1.1.4 梯度 (gradient)

对定义在凸集上的函数 f:RdRf:\mathbb{R}^d\mapsto \mathbb{R}梯度记为 f(x)=(f(x)x1,...,f(x)xd)Rd\nabla f(\bold x)=(\frac{\partial f(\bold x)}{\partial x_1},...,\frac{\partial f(\bold x)}{\partial x_d})\in\mathbb{R}^d. 则其为凸函数当且仅当其定义域 Ψ\Psi 是凸集且 x,zΨ\forall \bold x,\bold z\in \Psi 都有

f(z)f(x)+f(x)T(zx)f(\bold z)\geqslant f(\bold x) + \nabla f(\bold x)^T(\bold z-\bold x)

1.1.5 强凸函数 (strongly convex function)

对定义在凸集上的函数 f:RdRf:\mathbb{R}^d\mapsto \mathbb{R},若 λR+\exists\lambda\in\mathbb{R}_{+} 使得 x,zΨ\forall \bold x,\bold z\in \Psi 都有

f(θx+(1θ)z)θf(x)+(1θ)f(z)λ2θ(1θ)zx2 ( 0θ1)f(\theta\bold{x}+(1-\theta)\bold{z})\leqslant\theta f(\bold{x})+(1-\theta)f(\bold{z})-\frac{\lambda}{2}\theta(1-\theta)\lVert \bold z -\bold x\rVert^2\ (\forall\ 0\leqslant\theta\leqslant1)

则称 f()f(\cdot)是一个λ\lambda-强凸函数,若f()f(\cdot)可微,则又有

f(z)f(x)+f(x)T(zx)+λ2zx2f(\bold z)\geqslant f(\bold x)+\nabla f(\bold x)^T(\bold z-\bold x)+\frac{\lambda}{2}\lVert \bold z -\bold x\rVert^2

关于强凸函数的理解:不仅要求函数曲线在其切线“上方”,同时也要求函数曲线较切线大于λ2zx2\frac{\lambda}{2}\lVert \bold z -\bold x\rVert^2的二次函数距离

1.1.6 lLipschitzl-\rm Lipschitz 连续 与 ll-光滑

对定义在凸集上的凸函数 f:RdRf:\mathbb{R}^d\mapsto \mathbb{R},若  lR+\exist\ l\in\mathbb{R}_{+}x,zΨ\forall \bold x,\bold z\in \Psi 都有

f(z)f(x)lzxf(\bold z)-f(\bold x)\leqslant l\lVert\bold z-\bold x\rVert

则称f()f(\cdot)lLipschitzl-\rm Lipschitz 连续的,若可微函数f()f(\cdot)的梯度 f()\nabla f(\cdot) 满足 lLipschitzl-\rm Lipschitz 连续,则称f()f(\cdot)ll-光滑

1.1.7 Hessian矩阵与凸性

对定义在凸集上的函数 f:RdRf:\mathbb{R}^d\mapsto \mathbb{R} 二阶导数矩阵(Hessian矩阵) 记为2f(x)Rd×d\nabla^2 f(\bold x)\in\mathbb{R}^{d\times d},其中2f(x)ij=2f(x)xixj\nabla^2 f(\bold x)_{ij}=\frac{\partial^2f(\bold x)}{\partial x_i\partial x_j},若f()f(\cdot)二阶可微,则其为凸函数当且仅当2f(x)0\nabla^2 f(\bold x)\succeq 0,即其为半正定矩阵。

1.1.8 共轭函数 (conjugate function)

函数 f:RdRf:\mathbb{R}^d\mapsto \mathbb{R}的共轭函数定义为

f(z)=supxΨ(zTxf(x))f_*(\bold z)=\sup_{\bold x\in\Psi}(\bold z^T\bold x-f(\bold x))

其定义域为

Ψ={zsupxΨ(zTxf(x))<}\Psi_*=\{\bold z|\sup_{\bold x\in\Psi}(\bold z^T\bold x-f(\bold x))<\infty\}

直观来看,共轭函数f(z)f_*(\bold z)反应的是线性函数zTx\bold z^T\bold xf(x)f(\bold x)之间的最大差值。同时,共轭函数也具有一些很好的性质

  • 共轭函数 f(z)f_*(\bold z) 一定是凸函数
  • 若函数ff可微,则
f(f(x))=f(x)Txf(x)=[f(x)+f(x)T(0x)]f_*(\nabla f(\bold x))=\nabla f(\bold x)^T\bold x-f(x)=-[f(x)+\nabla f(\bold x)^T(0-\bold x)]

1.2 重要不等式

1.2.1 Jensen 不等式

对任意凸函数 f()f(\cdot)

f(E[X])E[f(X)]f(\mathbb{E}[X])\leqslant \mathbb{E}[f(X)]

由Jensen不等式可知 (E[X])2E[X2](\mathbb{E}[X])^2\leqslant\mathbb{E}[X^2]

1.2.2 Ho¨\rm \ddot{o}lder 不等式

p,qR+p,q\in\mathbb{R}_+1p+1q=1\frac{1}{p}+\frac{1}{q}=1 ,有

E[XY](E[Xp])1p(E[Y]q)1q\mathbb{E}[|XY|]\leqslant(\mathbb{E}[|X|^p])^{\frac{1}{p}}(\mathbb{E}[Y]^q)^{\frac{1}{q}}

证明:

引理1. (杨氏Young不等式):假设 a,b,p,qa,b,p,q 是正实数,且有1p+1q=1\frac{1}{p}+\frac{1}{q}=1 则有abapp+bqqab\leqslant\frac{a^p}{p}+\frac{b^q}{q}

ab=elnaelnb=e1plnap+1qlnbq1pelnap+1qelnbq=app+bqq   (use Jensen)ab=e^{\ln{a}}e^{\ln{b}}=e^{\frac{1}{p}\ln{a^p}+\frac{1}{q}\ln{b^q}}\leqslant\frac{1}{p}e^{\ln{a}^p}+\frac{1}{q}e^{\ln{b}^q}=\frac{a^p}{p}+\frac{b^q}{q}\ \ \ (\rm use\ Jensen)

继续证明

E[XY](E[Xp])1p(E[Y]q)1q1so  assume  that(E[Xp])1p=fp=(E[Y]q)1q=gq=1f(s)g(s)f(s)pp+g(s)qq and  Integrating  both  sidesfg1fppp+gqqq=1p+1q=1  Q.E.D.\begin{aligned} \rightarrow & \quad \frac{\mathbb{E}[|XY|]}{(\mathbb{E}[|X|^p])^{\frac{1}{p}}(\mathbb{E}[Y]^q)^{\frac{1}{q}}}\leqslant1\\ {\rm so\ \ assume\ \ that}& \quad (\mathbb{E}[|X|^p])^{\frac{1}{p}}=\lVert f\rVert_p=(\mathbb{E}[Y]^q)^{\frac{1}{q}}=\lVert g\rVert_q =1\\ & |f(s)g(s)|\leqslant\frac{|f(s)|^p}{p}+\frac{|g(s)|^q}{q}\ {\rm and \ \ Integrating\ \ both\ \ sides}\\ & \lVert fg\rVert_1\leqslant\frac{\lVert f\rVert^p_p}{p}+\frac{\lVert g\rVert^q_q}{q}=\frac{1}{p}+\frac{1}{q}=1\ \ {\rm Q.E.D.} \end{aligned}

1.2.3 Cauchy-Schwarz 不等式

  • 对任意随机变量 X,YX,Y
E[XY]E[X2]E[Y2]\mathbb{E}[|XY|]\leqslant\sqrt{\mathbb{E}[X^2]\mathbb{E}[Y^2]}
  • 对任意向量 x,yRdx,y\in\mathbb{R}^d
xTyxy|x^Ty|\leqslant\lVert x\rVert\lVert y\rVert
  • 对任意向量 x,yRdx,y\in\mathbb{R}^d 和正定矩阵 ARd×d\bold{A}\in\mathbb{R}^{d\times d}
xTyxAyA1|x^Ty|\leqslant \lVert x\rVert_{\bold{A}}\lVert y\rVert_{\bold{A}^{-1}}

其中xA=xTAx\lVert x\rVert_{\bold{A}}=\sqrt{x^T\bold{A}x}

证明如下

A=OTDO,P=DO,Q=D1OxTy=xTPTQyxTPTQy=xTAxyTA1y\begin{aligned} A&=O^TDO,\quad P=\sqrt{D}O,\quad Q=\sqrt{D^{-1}}O\\ x^Ty&=x^TP^TQy\leqslant\lVert x^TP^T\rVert\lVert Qy||=\sqrt{x^TAxy^TA^{-1}y} \end{aligned}

1.2.4 Lyapunov 不等式

0<rS0<r\leqslant S

(E[Xr])1r(E[Xs])1s(\mathbb{E}[|X|^r])^{\frac{1}{r}}\leqslant(\mathbb{E}[|X|^s])^{\frac{1}{s}}

证明

(E[Xr])sr(E[Xs])\rightarrow (\mathbb{E}[|X|^r])^{\frac{s}{r}}\leqslant(\mathbb{E}[|X|^s])

可以知道f(x)=xsrf(x)=|x|^{\frac{s}{r}}在非去等条件下为凸函数,构造变量Xr|X|^r加上 JensenJensen 不等式即可知其成立

1.2.5 Minkowski 不等式

1p1\leqslant p

(E[X+Yp])1p(E[Xp])1p+(E[Yp])1p(\mathbb{E}[|X+Y|^p])^{\frac{1}{p}}\leqslant(\mathbb{E}[|X|^p])^{\frac{1}{p}}+(\mathbb{E}[|Y|^p])^{\frac{1}{p}}

证明

(E[X+Yp])=abf(x)+g(x)pdx=abf(x)+g(x)f(x)+g(x)p1dxabf(x)f(x)+g(x)p1dx+abg(x)f(x)+g(x)p1dx  (use   Ho¨lder)(abf(x)pdx)1p(abf(x)+g(x)q(p1)dx)1q+(abg(x)pdx)1p(abf(x)+g(x)q(p1)dx)1q=[(abf(x)pdx)1p+(abg(x)pdx)1p](abf(x)+g(x)q(p1)dx)1q  (q=pqq)=[(abf(x)pdx)1p+(abg(x)pdx)1p](abf(x)+g(x)pdx)1q\begin{aligned} &(\mathbb{E}[|X+Y|^p])=\int_a^b|f(x)+g(x)|^p{\rm d}x=\int_a^b|f(x)+g(x)||f(x)+g(x)|^{p-1}{\rm d}x\\ \leqslant&\int_a^b|f(x)||f(x)+g(x)|^{p-1}{\rm d}x+\int_a^b|g(x)||f(x)+g(x)|^{p-1}{\rm d}x \ \ (use \ \ \ {\rm H\ddot{o}lder})\\ \leqslant& (\int_a^b|f(x)|^p{\rm d}x)^{\frac{1}{p}}(\int_a^b|f(x)+g(x)|^{q(p-1)}{\rm d}x)^{\frac{1}{q}}+(\int_a^b|g(x)|^p{\rm d}x)^{\frac{1}{p}}(\int_a^b|f(x)+g(x)|^{q(p-1)}{\rm d}x)^{\frac{1}{q}}\\ =&[(\int_a^b|f(x)|^p{\rm d}x)^{\frac{1}{p}}+(\int_a^b|g(x)|^p{\rm d}x)^{\frac{1}{p}}](\int_a^b|f(x)+g(x)|^{q(p-1)}{\rm d}x)^{\frac{1}{q}}\ \ (q=pq-q)\\ =&[(\int_a^b|f(x)|^p{\rm d}x)^{\frac{1}{p}}+(\int_a^b|g(x)|^p{\rm d}x)^{\frac{1}{p}}](\int_a^b|f(x)+g(x)|^p{\rm d}x)^{\frac{1}{q}} \end{aligned}

相消即得

(E[X+Yp])1p=(abf(x)+g(x)pdx)1p(abf(x)pdx)1p+(abg(x)pdx)1p=(E[Xp])1p+(E[Yp])1p\begin{aligned} (\mathbb{E}[|X+Y|^p])^{\frac{1}{p}}&=(\int_a^b|f(x)+g(x)|^p{\rm d}x)^{\frac{1}{p}}\leqslant(\int_a^b|f(x)|^p{\rm d}x)^{\frac{1}{p}}+(\int_a^b|g(x)|^p{\rm d}x)^{\frac{1}{p}}\\ &=(\mathbb{E}[|X|^p])^{\frac{1}{p}}+(\mathbb{E}[|Y|^p])^{\frac{1}{p}} \end{aligned}

1.2.6 Bhatia-Davis 不等式

X[a,b]X\in[a,b]

D[X](bE[X])(E[X]a)(ba)24\mathbb{D}[X]\leqslant(b-\mathbb{E}[X])(\mathbb{E}[X]-a)\leqslant\frac{(b-a)^2}{4}

证明

left part obviously thatE[(Xa+b2)2](ba)24LHSRHS=E[X2](b+a)E[x]+ba=D[X](bE[x])(E[x]a)0right part could be(bE[x])(E[x]a)(bE[x]+bE[x]2)2=(ba)24\begin{aligned} \text{left part obviously that}&\quad\mathbb{E}[(X-\frac{a+b}{2})^2]\leqslant\frac{(b-a)^2}{4} \\ {\rm LHS-RHS}=&\quad\mathbb{E}[X^2] − (b+a)\mathbb{E}[x] + ba =\mathbb{D}[X]- (b − \mathbb{E}[x])(\mathbb{E}[x] − a)\leqslant0\\ \text{right part could be}&\quad(b − \mathbb{E}[x])(\mathbb{E}[x] − a)\leqslant(\frac{b − \mathbb{E}[x]+b − \mathbb{E}[x]}{2})^2=\frac{(b-a)^2}{4} \end{aligned}

1.2.7 联合界 (Union Bound) 不等式

P(XY)P(X)+P(Y)P(X\cup Y)\leqslant P(X)+P(Y)

1.2.8 Markov 不等式

X0, ϵ>0X\geqslant0,\ \forall\epsilon>0

P(Xϵ)E[X]ϵP(X\geqslant\epsilon)\leqslant\frac{\mathbb{E}[X]}{\epsilon}

证明

E[X]=RxdF(x)=xϵxdF(x)+x<ϵxdF(x)xϵϵdF(x)=ϵP(Xϵ)E[X]ϵP(Xϵ)\begin{aligned} \mathbb{E}[X]&=\int_{\mathbb{R}}x{\rm d}F(x)=\int_{x\geqslant\epsilon}x{\rm d}F(x)+\int_{x<\epsilon}x{\rm d}F(x)\geqslant\int_{x\geqslant\epsilon}\epsilon{\rm d}F(x)=\epsilon P(X\geqslant\epsilon)\\ &\rightarrow\frac{\mathbb{E}[X]}{\epsilon}\geqslant P(X\geqslant\epsilon) \end{aligned}

1.2.9 Chebyshev 不等式

ϵ>0\forall\epsilon>0

P(XE[X]ϵ)D[X]ϵ2P(|X-\mathbb{E}[X]|\geqslant\epsilon)\leqslant\frac{\mathbb{D}[X]}{\epsilon^2}

证明

P(XE[X]ϵ)=P(XE[X]2ϵ2)E[(XE[X])2]ϵ2=D[X]ϵ2P(|X-\mathbb{E}[X]|\geqslant\epsilon)=P(|X-\mathbb{E}[X]|^2\geqslant\epsilon^2)\leqslant\frac{\mathbb{E}[(X-\mathbb{E}[X])^2]}{\epsilon^2}=\frac{\mathbb{D}[X]}{\epsilon^2}

1.2.10 Cantelli 不等式

ϵ>0\forall\epsilon>0

P(XE[X]ϵ)D[X]D[X]+ϵ2P(XE[X]ϵ)D[X]D[X]+ϵ2P(X-\mathbb{E}[X]\geqslant\epsilon)\leqslant\frac{\mathbb{D}[X]}{\mathbb{D}[X]+\epsilon^2}\\ P(X-\mathbb{E}[X]\leqslant-\epsilon)\leqslant\frac{\mathbb{D}[X]}{\mathbb{D}[X]+\epsilon^2}

证明

letY=XE[X],  E[Y]=0, D[Y]=D[X]Y<ϵ(Y+λ)2dF(Y)=Y<ϵ(Y2+2λY+λ2)dF(Y),λ0Y<ϵY2dF(Y)=D[Y]YϵY2dF(Y)D[Y]ϵP(Yϵ)Y<ϵYdF(Y)ϵP(Yϵ),Y<ϵdF(Y)=1P(Yϵ)Y<ϵ(Y+λ)2dF(Y)D[Y]P(Yϵ)(E[Y]2+2λE[Y]+λ2)+λ2D[Y]+λ2P(Yϵ)(E[Y]2+2λE[Y]+λ2)0P(Yϵ)infλ0D[Y]+λ2(E[Y]+λ)2=infλ0(D[Y]ϵλ)2(E[Y]+λ)2(D[Y]+ϵ2)+D[Y]D[Y]+ϵ2P(Yϵ)D[Y]D[Y]+ϵ2,P(Yϵ)D[Y]D[Y]+ϵ2  Q.E.D.\begin{aligned} {\rm let}&\quad Y=X-\mathbb{E}[X],\ \ \mathbb{E}[Y]=0,\ \mathbb{D}[Y]=\mathbb{D}[X]\\ &\int_{Y<\epsilon}(Y+\lambda)^2{\rm d}F(Y)=\int_{Y<\epsilon}(Y^2+2\lambda Y+\lambda^2){\rm d}F(Y),\lambda\geqslant0\\ &\int_{Y<\epsilon}Y^2{\rm d}F(Y)=\mathbb{D}[Y]-\int_{Y\geqslant\epsilon}Y^2{\rm d}F(Y)\leqslant\mathbb{D}[Y]-\epsilon P(Y\geqslant\epsilon)\\ &\int_{Y<\epsilon}Y{\rm d}F(Y)\leqslant-\epsilon P(Y\geqslant\epsilon),\int_{Y<\epsilon}{\rm d}F(Y)=1-P(Y\geqslant\epsilon)\\ \rightarrow &\int_{Y<\epsilon}(Y+\lambda)^2{\rm d}F(Y)\leqslant \mathbb{D}[Y]-P(Y\geqslant\epsilon)(\mathbb{E}[Y]^2+2\lambda \mathbb{E}[Y]+\lambda^2)+\lambda^2\\ \rightarrow & \mathbb{D}[Y]+\lambda^2-P(Y\geqslant\epsilon)(\mathbb{E}[Y]^2+2\lambda \mathbb{E}[Y]+\lambda^2)\geqslant0\\ &P(Y\geqslant\epsilon)\leqslant\inf_{\lambda\geqslant0}\frac{\mathbb{D}[Y]+\lambda^2}{(\mathbb{E}[Y]+\lambda)^2}=\inf_{\lambda\geqslant0}\frac{(\mathbb{D}[Y]-\epsilon\lambda)^2}{(\mathbb{E}[Y]+\lambda)^2(\mathbb{D}[Y]+\epsilon^2)}+\frac{\mathbb{D}[Y]}{\mathbb{D}[Y]+\epsilon^2}\\ \rightarrow &P(Y\geqslant\epsilon)\leqslant\frac{\mathbb{D}[Y]}{\mathbb{D}[Y]+\epsilon^2},P(Y\leqslant-\epsilon)\leqslant\frac{\mathbb{D}[Y]}{\mathbb{D}[Y]+\epsilon^2}\ \ {\rm Q.E.D.} \end{aligned}

1.2.11 Chernoff 不等式

t>0,  P(Xϵ)=P(etXetϵ)E[etX]etϵt<0,  P(Xϵ)=P(etXetϵ)E[etX]etϵ\forall t>0,\ \ P(X\geqslant\epsilon)=P(e^{tX}\geqslant e^{t\epsilon})\leqslant\frac{\mathbb{E}[e^{tX}]}{e^{t\epsilon}}\\ \forall t<0,\ \ P(X\leqslant\epsilon)=P(e^{tX}\geqslant e^{t\epsilon})\leqslant\frac{\mathbb{E}[e^{tX}]}{e^{t\epsilon}}

其多变量形式为:对m个独立同分布的随机变量 Xi{0,1},i[m]X_i\in\{0,1\},i\in[m],令 Xˉ=1m=i=1mXi\bar{X}=\frac{1}{m}=\sum^m_{i=1}X_i,对 r[0,1]r\in[0,1]

P(Xˉ(1+r)E[Xˉ])emr2E[Xˉ]/3P(Xˉ(1r)E[Xˉ])emr2E[Xˉ]/2P(\bar{X}\geqslant(1+r)\mathbb{E}[\bar{X}])\leqslant e^{−mr^2\mathbb{E}[\bar{X}]/3}\\ P(\bar{X}\leqslant(1-r)\mathbb{E}[\bar{X}])\leqslant e^{−mr^2\mathbb{E}[\bar{X}]/2}

下面仅对多变量形式进行证明 设P(Xi=1)=pi,E[Xˉ]=μP(X_i=1) =p_i,\mathbb{E}[\bar{X}]=\mu,由单变量形式的 Chernoff 不等式,对 t>0\forall t>0,有

P(Xˉ(1+r)μ)et(1+r)μE[etXˉ]=et(1+r)μE[i=1metXim]=et(1+r)μi=1mE[etXim]=et(1+r)μi=1m(1pi+pietm)et(1+r)μi=1mexp(pi(emt1))  (use  1+xex)=exp((tμ(1+r)+mμ(etm1)))\begin{aligned} &P(\bar{X}\geqslant(1+r)\mu)\leqslant e^{−t(1+r)\mu}\mathbb{E}[e^{t\bar{X}}]\\ =&e^{−t(1+r)\mu}\mathbb{E}[\prod^m_{i=1}e^{\frac{tX_i}{m}}]=e^{−t(1+r)\mu}\prod^m_{i=1}\mathbb{E}[e^{\frac{tX_i}{m}}]=e^{−t(1+r)\mu}\prod^m_{i=1}(1-p_i+p_ie^{\frac{t}{m}})\\ \leqslant &e^{−t(1+r)\mu}\prod^m_{i=1}\exp{(p_i(e^{\frac{m}{t}} − 1))}\ \ (\text{use}\ \ 1+x\leqslant e^x)\\ =&\exp{(−(t\mu(1+r) + m\mu(e^{\frac{t}{m}} − 1)))} \end{aligned}

t=mln(1+r)t=m\ln{(1+r)} 时取到最小值 (er(1+r)(1+r))(mμ)(\frac{e^r}{(1+r)^{(1+r)}})^{(m\mu)},注意到 2r2+rln(1+r)\frac{2r}{ 2+r}\leqslant\ln{(1 + r)},从而有 (er(1+r)(1+r))(mμ)emr2μ2+remr2μ3(\frac{e^r}{(1+r)^{(1+r)}})^{(m\mu)}\leqslant e^{-\frac{mr^2\mu}{2+r}}\leqslant e^{-\frac{mr^2\mu}{3}}

对另一个不等式,有

P(Xˉ(1r)μ)=P(Xˉ(1r)μ)et(1r)μE[etXˉ]  (use univariate Chernoff’s Inequailty)=et(1r)μi=1m(1pi+pietm)exp(tμ(1r)+mμ(etm1))  (use  1+xex)\begin{aligned} &P(\bar{X}\leqslant(1 − r)\mu)=P(−\bar{X}\geqslant−(1 − r)\mu)\\ \leqslant& e^{t(1−r)\mu}\mathbb{E}[e^{−t\bar{X}}]\ \ \text{(use univariate Chernoff’s Inequailty)}\\ =&e^{t(1-r)\mu}\prod^m_{i=1}(1-p_i+p_ie^{\frac{-t}{m}})\leqslant \exp{(t\mu(1 − r) + m\mu(e^{\frac{t}{m}} − 1))}\ \ (\text{use}\ \ 1+x\leqslant e^x) \end{aligned}

上式在 t=mln(1r)t=−m\ln{(1−r)} 时达到最小值 (er(1r)(1r))(mμ)(\frac{e^{−r}}{(1−r)^{(1−r)}})^{(m\mu)},注意到 r1r2lnrr−\frac{1}{r}\leqslant 2\ln{r},从而有P(Xˉ(1r)μ)(er(1r)(1r))(mµ)emr2μ2P(\bar{X}\leqslant(1 − r)\mu)\leqslant(\frac{e^{−r}}{ (1−r)^{(1−r)}})^{(mµ)}\leqslant e^{\frac{-mr^2\mu}{2}}

1.2.12 Hoeffding 不等式

对m个独立随机变量 Xi[0,1],i[m]X_i\in[0,1],i\in[m],令 Xˉ=1mi=1mXi\bar{X}= \frac{1}{m}\sum_{i=1}^{m}X_i,有

P(XˉE[Xˉ]ϵ)e2mϵ2P(\bar{X}-\mathbb{E}[\bar{X}]\geqslant\epsilon)\leqslant e^{-2m\epsilon^2}

Hoeffding 不等式的另一种形式,令 δ=e2mϵ2\delta=e^{-2m\epsilon^2},则至少以 1δ1-\delta 的概率有

XˉE[Xˉ]+12mln1δ\bar{X}\leqslant\mathbb{E}[\bar{X}]+\sqrt{\frac{1}{2m}\ln{\frac{1}{\delta}}}

若考虑 Xi[a,b],i[m]X_i\in[a,b],i\in[m],则得到 Hoeffding 不等式的更一般的形式

P(XˉE[Xˉ]ϵ)e2mϵ2(ba)2P(XˉE[Xˉ]ϵ)e2mϵ2(ba)2P(\bar{X}-\mathbb{E}[\bar{X}]\geqslant\epsilon)\leqslant e^{-\frac{2m\epsilon^2}{(b-a)^2}}\\ P(\bar{X}-\mathbb{E}[\bar{X}]\leqslant-\epsilon)\leqslant e^{-\frac{2m\epsilon^2}{(b-a)^2}}

证明:

先引入一个引理 (a lemma of Hoeffding’s Inequailty):X 为有界随机变量,X[a,b]X\in[a,b],则E[eλ(XE[X])]exp(λ2(ba)28)\mathbb{E}[e^{\lambda(X−\mathbb{E}[X])}]\leqslant\exp{(\frac{\lambda^2{(b − a)}^2}{8})}

引理证明:先考虑 E[X]=0\mathbb{E}[X]=0 的情形。对 f(x)=eλxf(x) = e^{\lambda x} 为凸函数,由 Jensen 不等式,对任意 s[0,1]s\in[0, 1],有

f(sa+(1s)b)sf(a)+(1s)f(b)f(sa+(1-s)b)\leqslant sf(a)+(1-s)f(b)

代入s=bXbas=\frac{b-X}{b-a}

eλxbXbaeλa+XabaeλbE[eλx]beλaaeλbba=(1θ)eλa+θeλb  (let θ=aba)=(1θ+θeλ(ba))eλ(ba)=exp(ln(1θ+θeh))  (let h=(ba))\begin{aligned} e^{\lambda x}&\leqslant\frac{b-X}{b-a}e^{\lambda a}+\frac{X-a}{b-a}e^{\lambda b}\\ \mathbb{E}[e^{\lambda x}]&\leqslant\frac{b\cdot e^{\lambda a}-a\cdot e^{\lambda b}}{b-a}=(1-\theta)e^{\lambda a}+\theta e^{\lambda b}\ \ (\text{let}\ \theta=-\frac{a}{b-a})\\ &=(1-\theta+\theta\cdot e^{\lambda(b-a)})e^{-\lambda(b-a)}=\exp{(\ln{(1-\theta+\theta e^h)})}\ \ (\text{let}\ h=-(b-a)) \end{aligned}

再令 L(h)=ln(1θ+θeh)hθL(h)= \ln{(1 −\theta + \theta e^h)} − h\theta,注意到 L(0)=L(0)=0L(0)=L'(0)=0,且 L(x)=θex1θ+θex(1θex1θ+θex)14L''(x)=\frac{\theta\cdot e^x}{1-\theta+\theta\cdot e^x}(1-\frac{\theta\cdot e^x}{1-\theta+\theta\cdot e^x})\leqslant\frac{1}{4},由带 lagrange 余项的 Taylor 定理,存在 ϕ(0,h)\phi\in(0,h) 使得 L(h)=L(0)+L(0)h+12L(ϕ)h218h2L(h) = L(0) + L′(0)h + \frac{1}{2}L''(\phi)h^2\leqslant\frac{1}{8}h^2m,则 E[eλX]exp(λ2(ba)28)\mathbb{E}[e^{\lambda X}]\leqslant\exp{(\frac{\lambda^2{(b − a)}^2}{8})}

再考虑 E[X]0\mathbb{E}[X] \ne 0 的情形,此时令 X^=XE[X]\hat{X}=X-\mathbb{E}[X],则 X^[aE[X],bE[X]]:=[a^,b^]\hat{X}\in[a-\mathbb{E}[X],b-\mathbb{E}[X]]:=[\hat{a},\hat{b}],令 h^:=λ(b^a^)=λ(ba)=h\hat{h}:=\lambda(\hat{b}-\hat{a})=\lambda(b-a)=h,从而转化成E[X]=0\mathbb{E}[X]=0 的情形,引理得证。

推论:若 X 满足 E[XF]=0E[X|\mathcal{F}] = 0,由同样的步骤能得到

E[eλXF]exp(18λ2(ba)2)\mathbb{E}[e^{\lambda X}|\mathcal{F}] \leqslant \exp{(\frac{1}{8}\lambda^2(b-a)^2)}

回到原来不等式:

P(XˉE[Xˉ]ϵ)eλϵE[eλ(XˉE[Xˉ])]  (use univariate Chernoff’s Inequailty)=eλϵi=1mE[eλm(XiE[Xi])]eλϵi=1mexp(λ28m2)  (use lemma above)=exp(mλ28m2λϵ)\begin{aligned} P(\bar{X}-\mathbb{E}[\bar{X}]\geqslant\epsilon)&\leqslant e^{-\lambda\epsilon}\mathbb{E}[e^{\lambda(\bar{X}-\mathbb{E}[\bar{X}])}] \ \ \text{(use univariate Chernoff’s Inequailty)}\\ &=e^{-\lambda\epsilon}\prod_{i=1}^m\mathbb{E}[e^{\frac{\lambda}{m}(X_i-\mathbb{E}[X_i])}]\leqslant e^{-\lambda\epsilon}\prod_{i=1}^m\exp{(\frac{\lambda^2}{8m^2})}\ \ \text{(use lemma above)}\\ &=\exp{(\frac{m\lambda^2}{8m^2}-\lambda\epsilon)} \end{aligned}

于是由 λ>0\lambda > 0 任意性 P(XˉE[Xˉ]ϵ)minλ>0exp(λ28mλϵ)=e2mϵ2P(\bar{X}-\mathbb{E}[\bar{X}]\geqslant\epsilon)\leqslant\min_{\lambda>0}\exp{(\frac{\lambda^2}{8m}-\lambda\epsilon)}=e^{-2m\epsilon^2}

1.2.13 McDiarmid 不等式

对m个独立随机变量 Xiχ,i[m]X_i\in\chi,i\in[m],若 f:χmRf:\chi^m\rightarrow\mathbb{R} 是关于XiX_i的实值函数且 x1,...,xm,xiχ\forall x_1,...,x_m,x_i'\in\chi

f(x1,...,xi,...,xm)f(x1,...,xi,...,xm)ci|f(x_1,...,x_i,...,x_m)-f(x_1,...,x_i',...,x_m)|\leqslant c_i

ϵ>0\forall\epsilon>0

P(f(x1,...,xi,...,xm)E[f(x1,...,xi,...,xm)]ϵ)e2ϵ2i=1mci2P(f(x1,...,xi,...,xm)E[f(x1,...,xi,...,xm)]ϵ)e2ϵ2i=1mci2P(f(x_1,...,x_i,...,x_m)-\mathbb{E}[f(x_1,...,x_i,...,x_m)]\geqslant\epsilon)\leqslant e^{-\frac{2\epsilon^2}{\sum_{i=1}^m c_i^2}}\\ P(f(x_1,...,x_i,...,x_m)-\mathbb{E}[f(x_1,...,x_i,...,x_m)]\leqslant-\epsilon)\leqslant e^{-\frac{2\epsilon^2}{\sum_{i=1}^m c_i^2}}

证明

Zi=E[fFi],Z0=E[f]Z_i = \mathbb{E}[f|\mathcal{F}_i], Z_0 = \mathbb{E}[f],则由全期望公式,E[Zi]=E[E[fFi]]=E[f]<,E[ZiFi1]=E[E[fFi]Fi1]=E[fFi1]=Zi1\mathbb{E}[Z_i] = \mathbb{E}[\mathbb{E}[f|\mathcal{F}_i]] = \mathbb{E}[f]<\infty,\mathbb{E}[Z_i|\mathcal{F}_{i-1}]=\mathbb{E}[\mathbb{E}[f|\mathcal{F}_i]|\mathcal{F}_{i-1}]=\mathbb{E}[f|\mathcal{F}_{i-1}]=Z_{i-1},从而 {Zi}\{Z_i\} 关于自身为鞅。

下面考虑 ZiZi1=E[fFi]E[fFi1]Z_i − Z{i−1} = \mathbb{E}[f|\mathcal{F}_i] − \mathbb{E}[f|\mathcal{F}_{i-1}] 的界。令

Ui:=supxXE[fFi1,Xi=x]E[fFi1]Li:=infxXE[fFi1,Xi=x]E[fFi1]U_i:=\sup_{x\in\mathcal{X}}\mathbb{E}[f|\mathcal{F}_{i-1},X_i=x]-\mathbb{E}[f|\mathcal{F}_{i-1}]\\ L_i:=\inf_{x\in\mathcal{X}}\mathbb{E}[f|\mathcal{F}_{i-1},X_i=x]-\mathbb{E}[f|\mathcal{F}_{i-1}]

此时有 LiZiZi1UiL_i\leqslant Z_i − Z_{i−1}\leqslant U_i

UiLi=supxu,xlXE[fFi1,Xi=xu]E[fFi1,Xi=xl]=supxu,xlXXi+1××Xmf(X1,,Xi1,Xu,Xi+1,Xm)f(X1,,Xi1,Xl,Xi+1,Xm)dPXi+1,,Xm(Xi+1,,Xm)cidP=ciU_i-L_i=\sup_{x_u,x_l\in\mathcal{X}}\mathbb{E}[f|\mathcal{F}_{i-1},X_i=x_u]-\mathbb{E}[f|\mathcal{F}_{i-1},X_i=x_l]\\ =\sup_{x_u,x_l\in\mathcal{X}}\int_{\mathcal{X}_{i+1}\times\cdots\times\mathcal{X}_m}f(X_1,\cdots,X_{i-1},X_u,X_{i+1},\cdots X_m)-\\ f(X_1,\cdots,X_{i-1},X_l,X_{i+1},\cdots X_m){\rm d}P_{X_{i+1},\cdots,X_m}(X_{i+1},\cdots,X_m)\leqslant\int c_i {\rm d}P=c_i

从强化版的 Azuma 不等式,有:

P(ZmZ0ϵ)=P(fE[f]ϵ)e2ϵ2i=1mci2P(Z_m-Z_0\geqslant\epsilon)=P(f-\mathbb{E}[f]\geqslant\epsilon)\leqslant e^{-\frac{2\epsilon^2}{\sum_{i=1}^m c_i^2}}

1.2.14 Bennett 不等式

对m个独立同分布的随机变量 Xi,i[m]X_i,i\in[m],令 Xˉ=1mi=1mXi\bar{X}= \frac{1}{m}\sum_{i=1}^{m}X_i,若 XiE[Xi]1X_i-\mathbb{E}[X_i]\leqslant1,有

P(XˉE[Xˉ]+ϵ)exp(mϵ22D[X1]+2ϵ/3)P(\bar{X}\geqslant\mathbb{E}[\bar{X}]+\epsilon)\leqslant\exp{(\frac{-m\epsilon^2}{2\mathbb{D}[X_1]+2\epsilon/3})}

在机器学习研究中常用到 Bennett 不等式的另一种形式,若

P(XˉE[Xˉ]+ϵ)exp(mϵ22D[X1]+2ϵ/3)=δP(\bar{X}\geqslant\mathbb{E}[\bar{X}]+\epsilon)\leqslant\exp{(\frac{-m\epsilon^2}{2\mathbb{D}[X_1]+2\epsilon/3})}=\delta

则至少以 1δ1-\delta 的概率有

XˉE[Xˉ]+ϵE[Xˉ]+2ln1/δ3m+2D[X1]mln1δ\bar{X}\leqslant\mathbb{E}[\bar{X}]+\epsilon\leqslant\mathbb{E}[\bar{X}]+\frac{2\ln{1/\delta}}{3m}+\sqrt{\frac{2\mathbb{D}[X_1]}{m}\ln{\frac{1}{\delta}}}

证明:实际上由 XiE[Xi]1|X_i−\mathbb{E}[X_i]|\leqslant1,有 E[XiE[Xi]k]1k2E[XiE[Xi]2]=D[Xi]\mathbb{E}[|X_i−\mathbb{E}[X_i]|^k]\leqslant 1^{k−2}\mathbb{E}[|X_i − \mathbb{E}[X_i]|^2]=\mathbb{D}[Xi],从而利用 Bernstein 不等式,取 b=13b=\frac{1}{3} 即是一个满足不等式条件的 b,带入得到结论。

1.2.15 Bernstein 不等式

对m个独立同分布的随机变量 Xi,i[m]X_i,i\in[m],令 Xˉ=1mi=1mXi\bar{X}= \frac{1}{m}\sum_{i=1}^{m}X_i,若存在 b>0b>0 使得 k2\forall k\geqslant2E[Xik]k!bk2D[X1]/2\mathbb{E}[|X_i|^k]\leqslant k!b^{k-2}\mathbb{D}[X_1]/2 成立,则有

P(XˉE[Xˉ]+ϵ)exp(mϵ22D[X1]+2bϵ)P(\bar{X}\geqslant\mathbb{E}[\bar{X}]+\epsilon)\leqslant\exp{(\frac{-m\epsilon^2}{2\mathbb{D}[X_1]+2b\epsilon})}

证明:对任意 λ0\lambda\geqslant0

E[eλ(XE[X])]=1+λE[XE[X]]+λ22E[XEX]2+k=3λkE[XE[X]]kk!  (use Fubini)=1+λ22D[X]+k=3λkE[XE[X]]kk!1+λ22D[X]+λ22D[X]k=3λk2bk21+λ2D[X]2(1λb)  (take λ<1b)exp(λ2D[X]2(1λb))\begin{aligned} \mathbb{E}[e^{\lambda(X−\mathbb{E}[X])}]&=1 +\lambda\mathbb{E}[X −\mathbb{E}[X]] + \frac{λ^2}{2}\mathbb{E}[X −\mathbb{E}X]^2+\sum_{k=3}^{\infty}\frac{\lambda^k\mathbb{E}[X-\mathbb{E}[X]]^k}{k!}\ \ \text{(use Fubini)}\\ &=1+\frac{\lambda^2}{2}\mathbb{D}[X]+\sum_{k=3}^{\infty}\frac{\lambda^k\mathbb{E}[X-\mathbb{E}[X]]^k}{k!}\leqslant 1+\frac{\lambda^2}{2}\mathbb{D}[X]+\frac{\lambda^2}{2}\mathbb{D}[X]\sum_{k=3}^{\infty}\lambda^{k-2}b^{k-2}\\ &\leqslant1+\frac{\lambda^2\mathbb{D}[X]}{2(1-\lambda b)}\ \ (\text{take }\lambda<\frac{1}{b})\leqslant\exp{(\frac{\lambda^2\mathbb{D}[X]}{2(1-\lambda b)})} \end{aligned}

又由单变量形式 Chernoff 不等式

P(XˉE[Xˉ]ϵ)eλϵE[eλ(XˉE[Xˉ])]=eλϵi=1mE[eλm(XiE[Xi])]exp(λϵ+i=1m(λm)2D[Xi]2(1λbm)\begin{aligned} P(\bar{X}−\mathbb{E}[\bar{X}]\geqslant\epsilon)&\leqslant e^{-\lambda\epsilon}\mathbb{E}[e^{\lambda(\bar{X}−\mathbb{E}[\bar{X}])}]=e^{−\lambda\epsilon}\prod^m_{i=1}\mathbb{E}[e^{\frac{\lambda}{m}(X_i−\mathbb{E}[X_i])}]\\ &\leqslant\exp{(-\lambda\epsilon+\sum_{i=1}^m\frac{{(\frac{\lambda}{m})}^2\mathbb{D}[X_i]}{2(1-\frac{\lambda b}{m})}} \end{aligned}

λ=ϵbϵ+i=1mD[Xi]m<1b\lambda = \frac{\epsilon}{b\epsilon+\sum^m_{i=1}\frac{\mathbb{D}[X_i]}{m}}< \frac{1}{b},从而有 P(XˉE[Xˉ]ϵ)exp(mϵ22D[Xi]+2bϵ)P(\bar{X}−\mathbb{E}[\bar{X}]\geqslant\epsilon)\leqslant\exp(\frac{-m\epsilon^2}{2\mathbb{D}[X_i]+2b\epsilon})

1.2.16 Azuma 不等式

对于均值为 μ\mu(martingale) {Zm,m1}\{Z_m,m\geqslant1\},令 Z0=μZ_0=\mu,若 ciZiZi1ci-c_i\leqslant Z_i-Z_{i-1}\leqslant c_i,则 ϵ>0\forall\epsilon>0

P(i=1mXiϵ)eϵ2/2i=1mci2P(i=1mXiϵ)eϵ2/2i=1mci2\begin{aligned} P(\sum_{i=1}^mX_i\geqslant\epsilon)&\leqslant e^{-\epsilon^2/2\sum_{i=1}^m c_i^2}\\ P(\sum_{i=1}^mX_i\leqslant-\epsilon)&\leqslant e^{-\epsilon^2/2\sum_{i=1}^m c_i^2} \end{aligned}

证明:下给出一个更强结论的证明, 这可以直接导出书中的不等式

对于鞅 {Zm}m1\{Z_m\}_{m\geqslant1}Z0=E[Z]Z_0 = \mathbb{E}[Z],若 AiZiZi1BiA_i\leqslant Z_i − Z_{i−1} \leqslant B_i,且 BiAiCiB_i − A_i \leqslant C_i,则对任意 ϵ>0\epsilon > 0

P(ZnZ0ϵ)exp(2ϵ2(i=1nCi2))P(Z_n − Z_0\geqslant\epsilon)\leqslant\exp{(-\frac{2\epsilon^2}{(\sum_{i=1}^nC_i^2)})}

强化定理证明

E[ZnZn1Fn1]=E[ZnFn1]E[Zn1Fn1]=Zn1Zn1=0(use Chernoff’s Inequality)P(ZnZ0ϵ)eλϵE[eλ(ZnZ0)]=eλϵE[exp(λi=1n(ZiZi1))]=eλϵE[exp(λi=1n(ZiZi1))E[exp(ZiZi1))Fn1]\begin{aligned} \mathbb{E}[Z_n−Z_{n−1}|\mathcal{F}_{n−1}] &= \mathbb{E}[Z_n|\mathcal{F}_{n−1}]−\mathbb{E}[Z_{n-1}|\mathcal{F}_{n−1}] = Z_{n−1}−Z_{n−1} = 0\\ \text{(use Chernoff’s Inequality)}&\quad P(Z_n − Z_0\geqslant\epsilon)\leqslant e^{-\lambda\epsilon}\mathbb{E}[e^{\lambda(Z_n-Z_0)}]\\ &=e^{-\lambda\epsilon}\mathbb{E}[\exp{(\lambda\sum_{i=1}^n(Z_i-Z_{i-1}))}]\\ &=e^{-\lambda\epsilon}\mathbb{E}[\exp{(\lambda\sum_{i=1}^n(Z_i-Z_{i-1}))}\mathbb{E}[\exp(Z_i-Z_{i-1}))|\mathcal{F}_{n-1}] \end{aligned}

再由 Hoeffding 不等式中证明的引理

E[exp(λ(ZnZn1))Fn1]exp(λ2(BnAn)28)exp(λ2Cn28)P(ZnZ0ϵ)eλϵexp(λ2Cn28)E[exp(λi=1n1(ZiZi1))]eλϵexp(λ28i=1nCi2)\begin{aligned} E[\exp{(\lambda(Z_n − Z_{n−1}))}|\mathcal{F}_{n−1}]&\leqslant\exp(\frac{\lambda^2(B_n−A_n)^2}8)\leqslant\exp{(\frac{\lambda^2C_n^2}8)}\\ P(Z_n − Z_0\geqslant\epsilon)&\leqslant e^{-\lambda\epsilon}\exp{(\frac{\lambda^2C_n^2}8)}\cdot\mathbb{E}[\exp{(\lambda\sum_{i=1}^{n-1}(Z_i-Z_{i-1}))}]\\ &\leqslant\cdots\leqslant e^{-\lambda\epsilon}\exp{(\frac{\lambda^2}8\sum_{i=1}^nC_i^2)} \end{aligned}

而此式极小值在 λ=4ϵi=1nCi2\lambda = \frac{4\epsilon}{\sum_{i=1}^nC_i^2} 时取到,由原不等式中 λ\lambda 的任意性,带入有 P(ZnZ0ϵ)exp(2ϵ2(i=1nCi2))P(Z_n − Z_0\geqslant\epsilon)\leqslant\exp{(-\frac{2\epsilon^2}{(\sum_{i=1}^nC_i^2)})}