1 Hoeffding不等式
Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。
它的思想与Markov不等式有些类似,我们先给出它的形式:
Hoeffding不等式:Y1,…,Yn为独立观测,E(Yi)=0,ai≤Yi≤bi。对于ϵ>0,∀t>0,有
P(i=1∑nYi≥ϵ)≤e−tϵi=1∏net2(bi−ai)2/8
2 证明
首先,∀t>0,利用Markov不等式,我们有
=≤=P(i=1∑nYi≥ϵ)P(et∑i=1nYi≥etϵ)e−tϵE(et∑i=1nYi)e−tϵi=1∏nE(etYi)
而又由于ai≤Yi≤bi,我们可将Yi表示为Yi=αbi+(1−α)ai,其中α=bi−aiYi−ai,利用Jensen不等式以及指数函数的凸性,有
etY≤bi−aiYi−aietbi+bi−aibi−Yietai
两边取期望后,再构造一个函数g(u),可得
E(etY)≤−bi−aiaietbi+bi−aibietai=eg(u)
其中u=t(bi−ai),g(u)=−γu+log(1−γ+γeu),γ=−bi−aiai。
我们可知g(0)=g′(0)=0,并且∀u>0,有g′′(u)≤1/4。
现在,我们需要用到Taylor定理:若g为光滑函数,则∃ξ∈(0,u),使得g(u)=g(0)+g′(0)u+21g′′(ξ)u2。利用Taylor定理,必定∃ξ∈(0,u),使得
==≤=g(u)g(0)+g′(0)u+21g′′(ξ)u221g′′(ξ)u28u28t2(bi−ai)2
代回之后,我们有
E(etYi)≤eg(u)≤et2(bi−ai)2/8
代回最上式,得证。
3 Bernoulli分布情形
这里我们考虑一种特殊情况:Bernoulli分布。由于Bernoulli分布的随机变量是有界的,因此可以用Hoeffding不等式,该结论也可以看作是Hoeffding不等式的一种形式:
假设X1,…,Xn∼Bernoulli(p),记Xˉn=n−1∑i=1nXi,则∀ϵ>0,有
P(∣Xˉn−p∣>ϵ)≤2e−2nϵ2
证明:令Yi=(1/n)(Xi−p),有E(Yi)=0,且a≤Yi≤b,其中a=−p/n,b=(1−p)/n。直接应用Hoeffding不等式,有∀ϵ>0,∀t>0:
P(Xˉn−p≥ϵ)=P(i=1∑nYi≥ϵ)≤e−tϵi=1∏net2/(8n2)
由于上式对于任意t>0都成立,取t=4nϵ,得到
P(Xˉn−p≥ϵ)≤e−4nϵ2i=1∏ne2ϵ2=e−2nϵ2
同理,若令Yi=(1/n)(p−Xi),则有
P(p−Xˉn≥ϵ)=P(Xˉn−p≤−ϵ)=e−2nϵ2
将两个不等式合并后,得证。
4 应用
我们来看一个简单的应用,目的是说明Hoeffding不等式的上限,可能会比如Chebyshev不等式等更紧。
假设X1,…,Xn∼Bernoulli(p),取n=100,ϵ=0.2,使用Chebyshev不等式,我们有
P(∣Xˉn−p∣>ϵ)≤ϵ2p(1−p)/n≤0.0625
而使用第3节中的Hoeffding不等式,有
P(∣Xˉn−p∣>ϵ)≤0.00067
可以看到,Hoeffding不等式的上界要小得多。