Hoeffding不等式简介

327 阅读1分钟

1 Hoeffding不等式

Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。

它的思想与Markov不等式有些类似,我们先给出它的形式:

Hoeffding不等式Y1,,YnY_1,\ldots,Y_n为独立观测,E(Yi)=0E(Y_i)=0aiYibia_i\leq Y_i\leq b_i。对于ϵ>0\epsilon\gt 0t>0\forall t \gt 0,有

P(i=1nYiϵ)etϵi=1net2(biai)2/8P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2 (b_i-a_i)^2/8}

2 证明

首先,t>0\forall t\gt 0,利用Markov不等式,我们有

P(i=1nYiϵ)=P(eti=1nYietϵ)etϵE(eti=1nYi)=etϵi=1nE(etYi)\begin{aligned} &P\left(\sum_{i=1}^{n} Y_i \geq \epsilon\right)\\ = & P\left(e^{t\sum_{i=1}^{n} Y_i} \geq e^{t\epsilon}\right)\\ \leq & e^{-t\epsilon} E\left(e^{t\sum_{i=1}^{n} Y_i} \right)\\ = & e^{-t\epsilon} \prod_{i=1}^{n} E\left(e^{t Y_i} \right) \end{aligned}

而又由于aiYibia_i\leq Y_i\leq b_i,我们可将YiY_i表示为Yi=αbi+(1α)aiY_i=\alpha b_i+(1-\alpha)a_i,其中α=Yiaibiai\alpha=\dfrac{Y_i-a_i}{b_i-a_i},利用Jensen不等式以及指数函数的凸性,有

etYYiaibiaietbi+biYibiaietaie^{tY}\leq \dfrac{Y_i-a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i-Y_i}{b_i-a_i} e^{ta_i}

两边取期望后,再构造一个函数g(u)g(u),可得

E(etY)aibiaietbi+bibiaietai=eg(u)E\left(e^{tY}\right) \leq -\dfrac{a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i}{b_i-a_i} e^{ta_i} = e^{g(u)}

其中u=t(biai)u=t(b_i-a_i)g(u)=γu+log(1γ+γeu)g(u)=-\gamma u+\log(1-\gamma+\gamma e^u)γ=aibiai\gamma=-\dfrac{a_i}{b_i-a_i}

我们可知g(0)=g(0)=0g(0)=g'(0)=0,并且u>0\forall u\gt 0,有g(u)1/4g''(u)\leq 1/4

现在,我们需要用到Taylor定理:若gg为光滑函数,则ξ(0,u)\exists \xi\in(0,u),使得g(u)=g(0)+g(0)u+12g(ξ)u2g(u)=g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2。利用Taylor定理,必定ξ(0,u)\exists \xi\in (0,u),使得

g(u)=g(0)+g(0)u+12g(ξ)u2=12g(ξ)u2u28=t2(biai)28\begin{aligned} &g(u)\\ =& g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2\\ =& \dfrac{1}{2}g''(\xi) u^2\\ \leq & \dfrac{u^2}{8}\\ =& \dfrac{t^2(b_i-a_i)^2}{8} \end{aligned}

代回之后,我们有

E(etYi)eg(u)et2(biai)2/8E\left(e^{tY_i}\right) \leq e^{g(u)}\leq e^{t^2(b_i-a_i)^2/8}

代回最上式,得证。

3 Bernoulli分布情形

这里我们考虑一种特殊情况:Bernoulli分布。由于Bernoulli分布的随机变量是有界的,因此可以用Hoeffding不等式,该结论也可以看作是Hoeffding不等式的一种形式:

假设X1,,XnBernoulli(p)X_1,\ldots,X_n\sim \text{Bernoulli}(p),记Xˉn=n1i=1nXi\bar{X}_n = n^{-1}\sum_{i=1}^{n}X_i,则ϵ>0\forall \epsilon \gt 0,有

P(Xˉnp>ϵ)2e2nϵ2P(|\bar X_n - p|\gt \epsilon) \leq 2e^{-2n\epsilon^2}

证明:令Yi=(1/n)(Xip)Y_i=(1/n)(X_i-p),有E(Yi)=0E(Y_i)=0,且aYiba\leq Y_i\leq b,其中a=p/na=-p/nb=(1p)/nb=(1-p)/n。直接应用Hoeffding不等式,有ϵ>0\forall \epsilon\gt 0t>0\forall t \gt 0:

P(Xˉnpϵ)=P(i=1nYiϵ)etϵi=1net2/(8n2)P(\bar{X}_n -p \geq \epsilon) = P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2/(8n^2)}

由于上式对于任意t>0t \gt 0都成立,取t=4nϵt=4n\epsilon,得到

P(Xˉnpϵ)e4nϵ2i=1ne2ϵ2=e2nϵ2P(\bar{X}_n -p \geq \epsilon) \leq e^{-4n\epsilon^2} \prod_{i=1}^{n} e^{2\epsilon^2} = e^{-2n\epsilon^2}

同理,若令Yi=(1/n)(pXi)Y_i=(1/n)(p-X_i),则有

P(pXˉnϵ)=P(Xˉnpϵ)=e2nϵ2P(p-\bar{X}_n \geq \epsilon) =P(\bar{X}_n -p \leq -\epsilon) = e^{-2n\epsilon^2}

将两个不等式合并后,得证。

4 应用

我们来看一个简单的应用,目的是说明Hoeffding不等式的上限,可能会比如Chebyshev不等式等更紧。

假设X1,,XnBernoulli(p)X_1,\ldots,X_n\sim \text{Bernoulli}(p),取n=100n=100ϵ=0.2\epsilon=0.2,使用Chebyshev不等式,我们有

P(Xˉnp>ϵ)p(1p)/nϵ20.0625P(|\bar X_n - p|\gt \epsilon) \leq \dfrac{p(1-p)/n}{\epsilon^2}\leq 0.0625

而使用第3节中的Hoeffding不等式,有

P(Xˉnp>ϵ)0.00067P(|\bar X_n - p|\gt \epsilon) \leq 0.00067

可以看到,Hoeffding不等式的上界要小得多。