Jensen不等式及其应用

556 阅读2分钟

Jensen不等式的形式有很多种,这里重点关注有关于随机变量期望的形式。

1 Jensen不等式

Jensen不等式:已知函数ϕ:RR\phi: \mathbb{R}\to\mathbb{R}为凸函数,则有ϕ[E(X)]E[ϕ(X)]\phi[\text{E}(X)]\leq \text{E}[\phi(X)]

有时候,需要用到离散形式的Jensen不等式:{aj}\{a_j\}是一系列非负权重,满足j=1maj=1\sum_{j=1}^m a_j=1{xj}\{x_j\}是一系列任意实数,对于凸函数ϕ:RR\phi: \mathbb{R}\to\mathbb{R},有

ϕ(j=1majxj)j=1majϕ(xj)\phi\left(\sum_{j=1}^m a_j x_j\right) \leq \sum_{j=1}^m a_j \phi(x_j)

只需将原期望形式的Jensen不等式中的随机变量取成离散的,并令P(X=xj)=ajP(X=x_j)=a_j,即可得到上式。

2 条件Jensen不等式

将不等式两边的期望都取为条件期望的形式,不等式依然成立。

条件Jensen不等式:已知函数ϕ:RR\phi: \mathbb{R}\to\mathbb{R}为凸函数,则有ϕ[E(XY)]E[ϕ(X)Y]\phi[\text{E}(X|Y)]\leq \text{E}[\phi(X)|Y]

来看一个应用:在Var(X)<\text{Var}(X)<\infty的条件下,利用条件Jensen不等式,可以证明Var[E(XY)]Var(X)\text{Var}[\text{E}(X|Y)]\leq \text{Var}(X)

证明如下:

[E(XY)E(X)]2=[E(XY)]2+[E(X)]22E(XY)E(X)E(X2Y)+[E(X)]22E(XY)E(X)\begin{aligned} &[\text{E}(X|Y)-\text{E}(X)]^2 \\ =& [\text{E}(X|Y)]^2+[\text{E}(X)]^2 - 2\text{E}(X|Y)\text{E}(X)\\ \leq & \text{E}(X^2|Y)+[\text{E}(X)]^2 - 2\text{E}(X|Y)\text{E}(X) \end{aligned}

两边取期望后,可得

E{{E(XY)E[E(XY)]}2}(=Var[E(XY)])E[E(X2Y)]+[E(X)]22[E(X)]2=E(X2)+[E(X)]22[E(X)]2=Var(X)\begin{aligned} &\text{E}\left\{\left\{\text{E}(X|Y)-\text{E}[\text{E}(X|Y)]\right\}^2\right\} \\ (= & \text{Var}[\text{E}(X|Y)])\\ \leq & \text{E}[\text{E}(X^2|Y)]+[\text{E}(X)]^2 - 2[\text{E}(X)]^2\\ = & \text{E}(X^2)+[\text{E}(X)]^2 - 2[\text{E}(X)]^2\\ = & \text{Var}(X) \end{aligned}

得证。

3 Jensen不等式的应用

许许多多不等式,都可以利用Jensen不等式得出,这里整理一些例子。

3.1 套用简单函数

ϕ\phi直接取为简单的凸函数或凹函数,就可以得到许多不等式:

  • [E(X)]2E(X2)[\text{E}(X)]^2 \geq \text{E}(X^2)
  • E(X)EX|\text{E}(X)|\leq \text{E}|X|
  • exp[E(X)]E[exp(X)]\exp[\text{E}(X)]\leq \text{E}[\exp(X)]
  • E[log(X)]log[E(X)]\text{E}[\log(X)]\leq \log[\text{E}(X)]
  • E[X1/2][E(X)]1/2\text{E}[X^{1/2}]\leq [\text{E}(X)]^{1/2}

3.2 Lyapunov不等式

Lyapunov不等式:对于任意0pq0\leq p \leq q,有

[E(Xp)]1/p[E(Xq)]1/q[\text{E}(|X|^{p})]^{1/p} \leq [\text{E}(|X|^{q})]^{1/q}

证明过程,只需利用凸函数ϕ(x)=xq/p\phi(x)=x^{q/p},和随机变量Y=XqY=|X|^q即可。

3.3 几何均值不等式

几何均值不等式(Geometric Mean Inequality):{aj\{a_j|是一系列非负权重,满足j=1maj=1\sum_{j=1}^m a_j=1{xj}\{x_j\}是一系列任意的非负实数,则有

x1a1x2a2xmamj=1majxjx_1^{a_1}x_2^{a_2}\cdots x_m^{a_m}\leq \sum_{j=1}^m a_j x_j

证明要用到离散形式的Jensen不等式,将ϕ\phi取为对数函数即可,由于对数函数是凹函数,不等式需反向。

如果取m=2m=2a1=a2=12a_1=a_2=\dfrac{1}{2},就是在中学阶段熟悉的x1x2x1+x22\sqrt{x_1 x_2}\leq \dfrac{x_1+x_2}{2},即几何均值小于等于代数均值。

3.4 Loeve’s CrC_r Inequality

对于一系列的任意实数xjx_j,有

j=1mxjr{j=1mxjr,0<r1mr1j=1mxjr,r>1\left| \sum_{j=1}^m x_j \right|^r \leq \begin{cases} \sum\limits_{j=1}^m |x_j|^r&,0\lt r\leq 1\\ m^{r-1} \sum\limits_{j=1}^m |x_j|^r&, r\gt 1 \end{cases}

m=2m=2时,记Cr=max{1,2r1}C_r=\max\{1,2^{r-1}\},该不等式可写为

a+brCr(ar+br)|a+b|^r\leq C_r \left(|a|^r+|b|^r\right)

因此也叫CrC_r不等式。

证明同样需用到离散形式Jensen不等式。若r>1r\gt 1,取aj=1/ma_j=1/mϕ(x)=xr\phi(x)=|x|^r,即可得证。若r1r\leq 1,记j=1mxj=A\sum_{j=1}^m |x_j|=A,取bj=xj/Ab_j=|x_j|/A,则bj[0,1]b_j\in [0,1],因此有bjbjrb_j\leq b_j^r,因此

1=j=1mbjj=1mbjr=j=1mxjrAr1=\sum_{j=1}^m b_j\leq \sum_{j=1}^m b_j^r=\dfrac{\sum_{j=1}^m |x_j|^r}{A^r}

再利用j=1mxjj=1mxj=A|\sum_{j=1}^m x_j |\leq \sum_{j=1}^m |x_j|=A,即可得证。

3.5 范数不等式

范数不等式:对于0<pq0\lt p\leq q,有

j=1mxjq1/qj=1mxjp1/p\left| \sum_{j=1}^m |x_j|^q \right|^{1/q} \leq\left| \sum_{j=1}^m |x_j|^p \right|^{1/p}

r=p/q1r=p/q\leq 1yj=xjqy_j=|x_j|^q,利用上一节中的CrC_r不等式,可得

j=1myjrj=1myjr\left| \sum_{j=1}^m y_j \right|^r \leq \sum_{j=1}^m |y_j|^r

xjx_j代回并两边取1/p1/p次方即可得证。