条件期望误差的有限性

289 阅读1分钟

1 CEF error的有限性问题

在回归中,记条件期望函数conditional expectation functionCEF)为E[YX=x]E[Y|X=x],则可将因变量YY分解为

Y=E[YX=x]+eY=E[Y|X=x]+e

可记e=YE[YX=x]e=Y-E[Y|X=x]为条件期望函数误差(CEF error)。

显然,ee满足E[eX]=0E[e|X]=0E[e]=0E[e]=0,这些都很容易证明。下面来看一个关于ee的有限性的问题:

若对于r>1r\gt 1E[Yr]<E[|Y|^r]\lt \infty,求证E[er]<E[|e|^r]\lt \infty

从直觉上说,ee是用条件期望函数对YY做了解释后留下的残差,那么YY的有限性应该可以保证ee的有限性。但要证明它,却比较复杂。

2 证明

首先我们利用Minkowski不等式,有

(E[er])1/r=(E[YE[YX=x]r])1/r(E[Yr])1/r+(E[E[YX=x]r])1/r\begin{aligned} &\left(E[|e|^r] \right)^{1/r}\\ =& \left(E\left[|Y-E[Y|X=x]|^r\right]\right)^{1/r}\\ \leq& \left(E\left[|Y|^r\right]\right)^{1/r}+\left(E\left[|E[Y|X=x]|^r\right]\right)^{1/r} \end{aligned}

由已知条件,第一项(E[Yr])1/r\left(E\left[|Y|^r\right]\right)^{1/r}是有限的。

对于第二项,由于g()=rg(\cdot)=|\cdot|^rr1r\geq 1时为凸函数,由Jensen不等式g(E[YX])E[g(Y)X]g(E[Y|X]) \leq E[g(Y)|X],即有

E[YX]rE[YrX]|E[Y|X]|^r \leq E[|Y|^r|X]

再对两边取期望后取1/r1/r次幂,可得

(E[E[YX]r])1/r(E[Yr])1/r\left(E\left[|E[Y|X]|^r \right]\right)^{1/r}\leq \left(E[|Y|^r]\right)^{1/r}

由已知条件可知,这一项也是有限的。

3 扩展

若我们关注r=2r=2,就变成了CEF error的无条件方差σ=E[e2]=Var[e]\sigma=E[e^2]=\text{Var}[e]。结论重新表述如下:

E[Y2]<E[Y^2]\lt \infty,则σ2<\sigma^2\lt \infty

事实上,若对于多个解释变量,则不断加入解释变量后,残差的方差必将减小,即若E[Y2]<E[Y^2]\lt \infty,必有

Var[Y]Var[YE[YX1]]Var[YE[YX1,X2]]\text{Var}[Y]\geq \text{Var}[Y-E[Y|X_1]] \geq \text{Var}[Y-E[Y|X_1,X_2]]

为什么?

证明:先利用E[YX1]=E[E[YX1,X2]X1]E[Y|X_1]=E[E[Y|X_1,X_2]|X_1]和Jensen不等式,我们可以得到

(E[YX1])2=(E[E[YX1,X2]X1])2E[(E[YX1,X2])2X1]\left(E[Y|X_1]\right)^2=(E[E[Y|X_1,X_2]|X_1])^2\leq E[\left(E[Y|X_1,X_2]\right)^2|X_1]

两边取期望后有

E[(E[YX1])2]E[(E[YX1,X2])2]E\left[\left(E[Y|X_1]\right)^2\right] \leq E\left[\left(E[Y|X_1,X_2]\right)^2\right]

同理,利用E[Y]=E[E[YX1]]E[Y]=E[E[Y|X_1]]和Jensen不等式,可得到(E[Y])2E[(E[YX1])2](E[Y])^2\leq E\left[\left(E[Y|X_1]\right)^2\right],与上面的式子放在一起有

(E[Y])2E[(E[YX1])2]E[(E[YX1,X2])2](E[Y])^2\leq E\left[\left(E[Y|X_1]\right)^2\right] \leq E\left[\left(E[Y|X_1,X_2]\right)^2\right]

三个地方都同时减去(E[Y])2(E[Y])^2,可得

0Var[E[YX1]]Var[E[YX1,X2]]0 \leq \text{Var}\left[E[Y|X_1]\right] \leq \text{Var}\left[E[Y|X_1,X_2]\right]

另一方面,我们已有e=YE[YX]e=Y-E[Y|X],再记u=E[YX]E[Y]u=E[Y|X]-E[Y],则E[eu]=0E[eu]=0,因此

Var[Y]=Var[e+u]=Var[e]+Var[u]=Var[YE[YX]]+Var[E[YX]]\begin{aligned} &\text{Var}[Y]\\ =& \text{Var}[e+u]\\ =& \text{Var}[e]+\text{Var}[u]\\ =& \text{Var}[Y-E[Y|X]]+\text{Var}[E[Y|X]] \end{aligned}

Var[Y]\text{Var}[Y]为常数,因此,Var[E[YX]]\text{Var}[E[Y|X]]越大,Var[YE[YX]]\text{Var}[Y-E[Y|X]]越小,即

Var[Y]Var[YE[YX1]]Var[YE[YX1,X2]]\text{Var}[Y]\geq \text{Var}[Y-E[Y|X_1]] \geq \text{Var}[Y-E[Y|X_1,X_2]]