一般回归问题、线性回归与模型的正确设定

664 阅读4分钟

1 一般回归问题

一般来说,计量经济学教材会从线性回归讲起,但这里再在线性回归之前,理一理更一般性的回归问题。

先看定义一下什么叫回归:

定义1 回归函数(Regression Function):E(yx)\mathbb{E}(y|\mathbf{x})就是yyx\mathbf{x}的回归函数。

再定义一个度量预测得好不好的指标:

定义2 均方误(Mean Squared Error,MSE):假设用g(x)g(\mathbf{x})预测yy,则预测量g(x)g(\mathbf{x})的均方误为 MSE(g)=E[yg(x)]2\text{MSE}(g)=\mathbb{E}[y-g(\mathbf{x})]^2

最好的预测函数的形式是什么?以下定理表明,最好的预测函数,恰恰就是回归函数即条件期望。

定理1 MSE的最优解:E(yx)\mathbb{E}(y|\mathbf{x})是以下问题的最优解: E(yx)=argmingFMSE(g)=argmingFE[yg(x)]2\mathbb{E}(y|\mathbf{x}) = \arg\min_{g\in \mathbb{F}} \text{MSE}(g) = \arg\min_{g\in \mathbb{F}} \mathbb{E}[y-g(\mathbf{x})]^2 其中F\mathbb{F}是所有可测和平方可积函数的集合(space of all measurable and square-integrable functions): F={g:Rk+1Rg2(x)fX(x)dx<}\mathbb{F}=\{ g:\mathbb{R}^{k+1}\to\mathbb{R} \Big| \int g^2(\mathbf{x})f_X(\mathbf{x})\,d\mathbf{x}<\infty\}

在该定理中,直接求解最值问题比较复杂,需要用到变分法,用构造法证明该定理比较简单,直接对MSE(g)\text{MSE}(g)做分解即可。令g0(x)E(yx)g_0(\mathbf{x})\equiv \mathbb{E}(y|\mathbf{x}),则有

MSE(g)=E[yg0(x)+g0(x)g(x)]2=E[yg0(x)]2+E[g0(x)g(x)]2+2E[(yg0(x))(g0(x)g(x))]2=E[yg0(x)]2+E[g0(x)g(x)]2\begin{aligned} \text{MSE}(g) = &\mathbb{E}[y-g_0(\mathbf{x})+g_0(\mathbf{x})-g(\mathbf{x})]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2+2\mathbb{E}[\left(y-g_0(\mathbf{x})\right)\left(g_0(\mathbf{x})-g(\mathbf{x})\right)]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2 \end{aligned}

显然,第一项为常数,只有当第二项为00g(x)=g0(x)g(\mathbf{x})=g_0(\mathbf{x})时,MSE(g)\text{MSE}(g)取到最小。

再来看一个有关回归中的扰动项的定理:

定理2 回归等式(Regresssion Identity):给定E(yx)\mathbb{E}(y|\mathbf{x}),总是有 y=E(yx)+εy=\mathbb{E}(y|\mathbf{x})+\varepsilon 其中ε\varepsilon为回归扰动项(regression disturbance),满足E(εx)=0\mathbb{E}(\varepsilon|\mathbf{x})=0

接下来的问题是,我们该如何对这个最优解g0(x)g_0(\mathbf{x})建模?最简单地,可以用线性函数去近似它。

2 线性回归

首先,引入仿射函数的概念:

定义3 仿射函数族(Affine Functions):记x=(1,x1,,xk)\mathbf{x}=(1,x_1,\ldots,x_k)'β=(β0,β1,,βk)\beta=(\beta_0,\beta_1,\ldots,\beta_k)',则仿射函数族定义为 A={g:Rk+1Rg(x)=xβ}\mathbb{A}= \left\{g: \mathbb{R}^{k+1}\to\mathbb{R} \Big| g(\mathbf{x})=\mathbf{x}'\beta \right\}

当我们将g(x)g(x)的函数集合从所有可测且平方可积的函数集限制为仿射函数集后,问题转变为求解最优的参数β\beta^*使得MSE最小化,该参数就称为最优最小二乘近似系数。

定理3 最优线性最小二乘预测(Best Linear Least Squares Prediction):假设E(y2)<E(y^2)<\infty且矩阵E(xx)\mathbb{E}(\mathbf{x}\mathbf{x}')非奇异,则优化问题 mingAE[yg(x)]2=minβRk+1E(yxβ)2\min_{g\in\mathbb{A}} \mathbb{E}[y-g(\mathbf{x})]^2=\min_{\beta\in\mathbb{R}^{k+1}} \mathbb{E}(y-\mathbf{x}'\beta)^2 的解,即最优线性最小二乘预测为 g(x)=xβg^*(\mathbf{x})=\mathbf{x}'\beta^* 其中 β=[E(xx)]1E(xy)\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)

证明非常容易,只需对一阶条件dE(yxβ)2dββ=β=0\dfrac{d\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta}\bigg|_{\beta=\beta^*}=0求解即可,因为二阶条件即Hessian矩阵d2E(yxβ)2dβdβ=E(xx)\dfrac{d^2\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta d\beta'}=\mathbb{E}(\mathbf{x}\mathbf{x}')E(xx)\mathbb{E}(\mathbf{x}\mathbf{x}')非奇异时一定是正定的。

下面正式定义线性回归模型:

定义4 线性回归模型(Linear Regression Model): y=xβ+u,βRk+1y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1} 其中uu是回归模型误差(regression model error)。

那么,线性回归模型和最优线性最小二乘预测之间有什么关系?

定理4 假设定理3的条件成立,y=xβ+uy=\mathbf{x}'\beta+u,并令β=[E(xx)]1E(xy)\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)为最优线性最小二乘近似系数。则 β=β\beta=\beta^* 等价于E(xu)=0\mathbb{E}(\mathbf{x}u)=0

该定理的证明非常简单,需从必要性和充分性两方面证明,在此不作展开。

该定理意味着,只要正交条件E(xu)=0\mathbb{E}(\mathbf{x}u)=0满足,那么线性回归模型的参数值就等于最优线性最小二乘近似系数β\beta^*,二者等价。

3 模型的正确设定

均值模型怎样才是正确设定了?

定义5 条件均值模型的正确设定(Correct Model Specification in Conditional Mean):线性回归模型y=xβ+u,βRk+1y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1}是条件均值E(yx)\mathbb{E}(y|\mathbf{x})的正确设定,若存在某个参数βoRk+1\beta^o \in \mathbb{R}^{k+1}使得E(yx)=xβ\mathbb{E}(y|\mathbf{x})=\mathbf{x}'\beta。 另一方面,若对于任意βRk+1\beta\in \mathbb{R}^{k+1}均有E(yx)xβ\mathbb{E}(y|\mathbf{x})\neq \mathbf{x}'\beta,则线性回归模型是对E(yx)\mathbb{E}(y|\mathbf{x})的错误设定。

由该定义可以看到,线性回归模型设定正确的条件是存在某一参数βo\beta^o使得E(ux)=0\mathbb{E}(u|\mathbf{x})=0。换句话说,线性回归模型设定正确的充要条件是E(ux)=0\mathbb{E}(u|\mathbf{x})=0,其中u=yxβou=y-\mathbf{x}'\beta^o

下面的定理说明当均值模型设定正确时,回归模型误差项uu与真实回归扰动项ε\varepsilon的关系:

定理5 如果线性回归模型y=xβ+uy=\mathbf{x}'\beta+u是对条件均值E(yx)\mathbb{E}(y|\mathbf{x})的正确设定,则 (1) 存在一个参数βo\beta^o和一个随机变量ε\varepsilon,有y=xβo+εy=\mathbf{x}'\beta^o+\varepsilon,其中E(εx)=0\mathbb{E}(\varepsilon|\mathbf{x})=0; (2) β=βo\beta^*=\beta^o

由定义5可直接得到(1),对于(2),可由(1)的E(εx)=0\mathbb{E}(\varepsilon|\mathbf{x})=0推出E(xε)=0\mathbb{E}(\mathbf{x}\varepsilon)=0,再使用定理4即可得证。

为便于理解,下面用一个例子说明什么叫模型的正确设定和错误设定:

假设数据生成过程(DGP)为y=1+12x1+14(x121)+εy=1+\dfrac{1}{2}x_1+\dfrac{1}{4}(x_1^2-1)+\varepsilon,其中x1x_1ε\varepsilon是相互独立的N(0,1)\mathcal{N}(0,1)随机变量。现在如果我们用线性回归模型y=xβ+uy=\mathbf{x}'\beta+u对该DGP进行近似,其中x=(1,x1)\mathbf{x}=(1,x_1)'

经计算,我们可以解得最优线性最小二乘近似β=(1,12)\beta^*=(1,\dfrac{1}{2})',而g(x)=1+12x1g^*(\mathbf{x})=1+\dfrac{1}{2}x_1,可以看到其中没有包含非线性的部分。若在回归模型中取β=β\beta=\beta^*,由定理4,就有E(xu)=0\mathbb{E}(\mathbf{x}u)=0,但是,此时E(ux)=14(x121)0\mathbb{E}(u|\mathbf{x})=\dfrac{1}{4}(x_1^2-1)\neq 0,即模型没有正确设定。

模型没有被正确设定,它会造成什么样的后果?计算可知真正的期望边际效应为E(yx)dx1=12+12x1\dfrac{\mathbb{E}(y|\mathbf{x})}{dx_1}=\dfrac{1}{2}+\dfrac{1}{2}x_1,但它不等于β1=12\beta^*_1=\dfrac{1}{2}。也就是说,模型的错误设定,会导致解出的最优线性最小二乘近似并不是真正的期望边际效用。

参考资料

  • 洪永淼《高级计量经济学》,2011