1 一般回归问题
一般来说,计量经济学教材会从线性回归讲起,但这里再在线性回归之前,理一理更一般性的回归问题。
先看定义一下什么叫回归:
定义1 回归函数(Regression Function):E ( y ∣ x ) \mathbb{E}(y|\mathbf{x}) E ( y ∣ x ) 就是y y y 对x \mathbf{x} x 的回归函数。
再定义一个度量预测得好不好的指标:
定义2 均方误(Mean Squared Error,MSE):假设用g ( x ) g(\mathbf{x}) g ( x ) 预测y y y ,则预测量g ( x ) g(\mathbf{x}) g ( x ) 的均方误为 MSE ( g ) = E [ y − g ( x ) ] 2 \text{MSE}(g)=\mathbb{E}[y-g(\mathbf{x})]^2 MSE ( g ) = E [ y − g ( x ) ] 2
最好的预测函数的形式是什么?以下定理表明,最好的预测函数,恰恰就是回归函数即条件期望。
定理1 MSE的最优解:E ( y ∣ x ) \mathbb{E}(y|\mathbf{x}) E ( y ∣ x ) 是以下问题的最优解:
E ( y ∣ x ) = arg min g ∈ F MSE ( g ) = arg min g ∈ F E [ y − g ( x ) ] 2 \mathbb{E}(y|\mathbf{x}) = \arg\min_{g\in \mathbb{F}} \text{MSE}(g) = \arg\min_{g\in \mathbb{F}} \mathbb{E}[y-g(\mathbf{x})]^2 E ( y ∣ x ) = arg min g ∈ F MSE ( g ) = arg min g ∈ F E [ y − g ( x ) ] 2
其中F \mathbb{F} F 是所有可测和平方可积函数的集合(space of all measurable and square-integrable functions):
F = { g : R k + 1 → R ∣ ∫ g 2 ( x ) f X ( x ) d x < ∞ } \mathbb{F}=\{ g:\mathbb{R}^{k+1}\to\mathbb{R} \Big| \int g^2(\mathbf{x})f_X(\mathbf{x})\,d\mathbf{x}<\infty\} F = { g : R k + 1 → R ∣ ∣ ∫ g 2 ( x ) f X ( x ) d x < ∞ }
在该定理中,直接求解最值问题比较复杂,需要用到变分法,用构造法证明该定理比较简单,直接对MSE ( g ) \text{MSE}(g) MSE ( g ) 做分解即可。令g 0 ( x ) ≡ E ( y ∣ x ) g_0(\mathbf{x})\equiv \mathbb{E}(y|\mathbf{x}) g 0 ( x ) ≡ E ( y ∣ x ) ,则有
MSE ( g ) = E [ y − g 0 ( x ) + g 0 ( x ) − g ( x ) ] 2 = E [ y − g 0 ( x ) ] 2 + E [ g 0 ( x ) − g ( x ) ] 2 + 2 E [ ( y − g 0 ( x ) ) ( g 0 ( x ) − g ( x ) ) ] 2 = E [ y − g 0 ( x ) ] 2 + E [ g 0 ( x ) − g ( x ) ] 2 \begin{aligned}
\text{MSE}(g) = &\mathbb{E}[y-g_0(\mathbf{x})+g_0(\mathbf{x})-g(\mathbf{x})]^2\\
=& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2+2\mathbb{E}[\left(y-g_0(\mathbf{x})\right)\left(g_0(\mathbf{x})-g(\mathbf{x})\right)]^2\\
=& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2
\end{aligned} MSE ( g ) = = = E [ y − g 0 ( x ) + g 0 ( x ) − g ( x ) ] 2 E [ y − g 0 ( x ) ] 2 + E [ g 0 ( x ) − g ( x ) ] 2 + 2 E [ ( y − g 0 ( x ) ) ( g 0 ( x ) − g ( x ) ) ] 2 E [ y − g 0 ( x ) ] 2 + E [ g 0 ( x ) − g ( x ) ] 2
显然,第一项为常数,只有当第二项为0 0 0 即g ( x ) = g 0 ( x ) g(\mathbf{x})=g_0(\mathbf{x}) g ( x ) = g 0 ( x ) 时,MSE ( g ) \text{MSE}(g) MSE ( g ) 取到最小。
再来看一个有关回归中的扰动项的定理:
定理2 回归等式(Regresssion Identity):给定E ( y ∣ x ) \mathbb{E}(y|\mathbf{x}) E ( y ∣ x ) ,总是有
y = E ( y ∣ x ) + ε y=\mathbb{E}(y|\mathbf{x})+\varepsilon y = E ( y ∣ x ) + ε 其中ε \varepsilon ε 为回归扰动项(regression disturbance),满足E ( ε ∣ x ) = 0 \mathbb{E}(\varepsilon|\mathbf{x})=0 E ( ε ∣ x ) = 0 。
接下来的问题是,我们该如何对这个最优解g 0 ( x ) g_0(\mathbf{x}) g 0 ( x ) 建模?最简单地,可以用线性函数去近似它。
2 线性回归
首先,引入仿射函数的概念:
定义3 仿射函数族(Affine Functions):记x = ( 1 , x 1 , … , x k ) ′ \mathbf{x}=(1,x_1,\ldots,x_k)' x = ( 1 , x 1 , … , x k ) ′ ,β = ( β 0 , β 1 , … , β k ) ′ \beta=(\beta_0,\beta_1,\ldots,\beta_k)' β = ( β 0 , β 1 , … , β k ) ′ ,则仿射函数族定义为
A = { g : R k + 1 → R ∣ g ( x ) = x ′ β } \mathbb{A}= \left\{g: \mathbb{R}^{k+1}\to\mathbb{R} \Big| g(\mathbf{x})=\mathbf{x}'\beta \right\} A = { g : R k + 1 → R ∣ ∣ g ( x ) = x ′ β }
当我们将g ( x ) g(x) g ( x ) 的函数集合从所有可测且平方可积的函数集限制为仿射函数集后,问题转变为求解最优的参数β ∗ \beta^* β ∗ 使得MSE最小化,该参数就称为最优最小二乘近似系数。
定理3 最优线性最小二乘预测(Best Linear Least Squares Prediction):假设E ( y 2 ) < ∞ E(y^2)<\infty E ( y 2 ) < ∞ 且矩阵E ( x x ′ ) \mathbb{E}(\mathbf{x}\mathbf{x}') E ( x x ′ ) 非奇异,则优化问题
min g ∈ A E [ y − g ( x ) ] 2 = min β ∈ R k + 1 E ( y − x ′ β ) 2 \min_{g\in\mathbb{A}} \mathbb{E}[y-g(\mathbf{x})]^2=\min_{\beta\in\mathbb{R}^{k+1}} \mathbb{E}(y-\mathbf{x}'\beta)^2 min g ∈ A E [ y − g ( x ) ] 2 = min β ∈ R k + 1 E ( y − x ′ β ) 2
的解,即最优线性最小二乘预测为
g ∗ ( x ) = x ′ β ∗ g^*(\mathbf{x})=\mathbf{x}'\beta^* g ∗ ( x ) = x ′ β ∗
其中
β ∗ = [ E ( x x ′ ) ] − 1 E ( x y ) \beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y) β ∗ = [ E ( x x ′ ) ] − 1 E ( x y )
证明非常容易,只需对一阶条件d E ( y − x ′ β ) 2 d β ∣ β = β ∗ = 0 \dfrac{d\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta}\bigg|_{\beta=\beta^*}=0 d β d E ( y − x ′ β ) 2 ∣ ∣ β = β ∗ = 0 求解即可,因为二阶条件即Hessian矩阵d 2 E ( y − x ′ β ) 2 d β d β ′ = E ( x x ′ ) \dfrac{d^2\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta d\beta'}=\mathbb{E}(\mathbf{x}\mathbf{x}') d β d β ′ d 2 E ( y − x ′ β ) 2 = E ( x x ′ ) 在E ( x x ′ ) \mathbb{E}(\mathbf{x}\mathbf{x}') E ( x x ′ ) 非奇异时一定是正定的。
下面正式定义线性回归模型:
定义4 线性回归模型(Linear Regression Model):
y = x ′ β + u , β ∈ R k + 1 y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1} y = x ′ β + u , β ∈ R k + 1
其中u u u 是回归模型误差(regression model error)。
那么,线性回归模型和最优线性最小二乘预测之间有什么关系?
定理4 假设定理3的条件成立,y = x ′ β + u y=\mathbf{x}'\beta+u y = x ′ β + u ,并令β ∗ = [ E ( x x ′ ) ] − 1 E ( x y ) \beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y) β ∗ = [ E ( x x ′ ) ] − 1 E ( x y ) 为最优线性最小二乘近似系数。则
β = β ∗ \beta=\beta^* β = β ∗
等价于E ( x u ) = 0 \mathbb{E}(\mathbf{x}u)=0 E ( x u ) = 0 。
该定理的证明非常简单,需从必要性和充分性两方面证明,在此不作展开。
该定理意味着,只要正交条件E ( x u ) = 0 \mathbb{E}(\mathbf{x}u)=0 E ( x u ) = 0 满足,那么线性回归模型的参数值就等于最优线性最小二乘近似系数β ∗ \beta^* β ∗ ,二者等价。
3 模型的正确设定
均值模型怎样才是正确设定了?
定义5 条件均值模型的正确设定(Correct Model Specification in Conditional Mean):线性回归模型y = x ′ β + u , β ∈ R k + 1 y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1} y = x ′ β + u , β ∈ R k + 1 是条件均值E ( y ∣ x ) \mathbb{E}(y|\mathbf{x}) E ( y ∣ x ) 的正确设定,若存在某个参数β o ∈ R k + 1 \beta^o \in \mathbb{R}^{k+1} β o ∈ R k + 1 使得E ( y ∣ x ) = x ′ β \mathbb{E}(y|\mathbf{x})=\mathbf{x}'\beta E ( y ∣ x ) = x ′ β 。
另一方面,若对于任意β ∈ R k + 1 \beta\in \mathbb{R}^{k+1} β ∈ R k + 1 均有E ( y ∣ x ) ≠ x ′ β \mathbb{E}(y|\mathbf{x})\neq \mathbf{x}'\beta E ( y ∣ x ) = x ′ β ,则线性回归模型是对E ( y ∣ x ) \mathbb{E}(y|\mathbf{x}) E ( y ∣ x ) 的错误设定。
由该定义可以看到,线性回归模型设定正确的条件是存在某一参数β o \beta^o β o 使得E ( u ∣ x ) = 0 \mathbb{E}(u|\mathbf{x})=0 E ( u ∣ x ) = 0 。换句话说,线性回归模型设定正确的充要条件是E ( u ∣ x ) = 0 \mathbb{E}(u|\mathbf{x})=0 E ( u ∣ x ) = 0 ,其中u = y − x ′ β o u=y-\mathbf{x}'\beta^o u = y − x ′ β o 。
下面的定理说明当均值模型设定正确时,回归模型误差项u u u 与真实回归扰动项ε \varepsilon ε 的关系:
定理5 如果线性回归模型y = x ′ β + u y=\mathbf{x}'\beta+u y = x ′ β + u 是对条件均值E ( y ∣ x ) \mathbb{E}(y|\mathbf{x}) E ( y ∣ x ) 的正确设定,则
(1) 存在一个参数β o \beta^o β o 和一个随机变量ε \varepsilon ε ,有y = x ′ β o + ε y=\mathbf{x}'\beta^o+\varepsilon y = x ′ β o + ε ,其中E ( ε ∣ x ) = 0 \mathbb{E}(\varepsilon|\mathbf{x})=0 E ( ε ∣ x ) = 0 ;
(2) β ∗ = β o \beta^*=\beta^o β ∗ = β o 。
由定义5可直接得到(1),对于(2),可由(1)的E ( ε ∣ x ) = 0 \mathbb{E}(\varepsilon|\mathbf{x})=0 E ( ε ∣ x ) = 0 推出E ( x ε ) = 0 \mathbb{E}(\mathbf{x}\varepsilon)=0 E ( x ε ) = 0 ,再使用定理4即可得证。
为便于理解,下面用一个例子说明什么叫模型的正确设定和错误设定:
假设数据生成过程(DGP)为y = 1 + 1 2 x 1 + 1 4 ( x 1 2 − 1 ) + ε y=1+\dfrac{1}{2}x_1+\dfrac{1}{4}(x_1^2-1)+\varepsilon y = 1 + 2 1 x 1 + 4 1 ( x 1 2 − 1 ) + ε ,其中x 1 x_1 x 1 与ε \varepsilon ε 是相互独立的N ( 0 , 1 ) \mathcal{N}(0,1) N ( 0 , 1 ) 随机变量。现在如果我们用线性回归模型y = x ′ β + u y=\mathbf{x}'\beta+u y = x ′ β + u 对该DGP进行近似,其中x = ( 1 , x 1 ) ′ \mathbf{x}=(1,x_1)' x = ( 1 , x 1 ) ′ 。
经计算,我们可以解得最优线性最小二乘近似β ∗ = ( 1 , 1 2 ) ′ \beta^*=(1,\dfrac{1}{2})' β ∗ = ( 1 , 2 1 ) ′ ,而g ∗ ( x ) = 1 + 1 2 x 1 g^*(\mathbf{x})=1+\dfrac{1}{2}x_1 g ∗ ( x ) = 1 + 2 1 x 1 ,可以看到其中没有包含非线性的部分。若在回归模型中取β = β ∗ \beta=\beta^* β = β ∗ ,由定理4,就有E ( x u ) = 0 \mathbb{E}(\mathbf{x}u)=0 E ( x u ) = 0 ,但是,此时E ( u ∣ x ) = 1 4 ( x 1 2 − 1 ) ≠ 0 \mathbb{E}(u|\mathbf{x})=\dfrac{1}{4}(x_1^2-1)\neq 0 E ( u ∣ x ) = 4 1 ( x 1 2 − 1 ) = 0 ,即模型没有正确设定。
模型没有被正确设定,它会造成什么样的后果?计算可知真正的期望边际效应为E ( y ∣ x ) d x 1 = 1 2 + 1 2 x 1 \dfrac{\mathbb{E}(y|\mathbf{x})}{dx_1}=\dfrac{1}{2}+\dfrac{1}{2}x_1 d x 1 E ( y ∣ x ) = 2 1 + 2 1 x 1 ,但它不等于β 1 ∗ = 1 2 \beta^*_1=\dfrac{1}{2} β 1 ∗ = 2 1 。也就是说,模型的错误设定,会导致解出的最优线性最小二乘近似并不是真正的期望边际效用。
参考资料