一般回归问题、线性回归与模型的正确设定一般来说，计量经济学教材会从线性回归讲起，但这里再在线性回归之前，理一理更一般性的

1 一般回归问题

一般来说，计量经济学教材会从线性回归讲起，但这里再在线性回归之前，理一理更一般性的回归问题。

先看定义一下什么叫回归：

定义1 回归函数（Regression Function）： $\mathbb{E}(y|\mathbf{x})$ 就是 $y$ 对 $\mathbf{x}$ 的回归函数。

再定义一个度量预测得好不好的指标：

定义2 均方误（Mean Squared Error，MSE）：假设用 $g(\mathbf{x})$ 预测 $y$ ，则预测量 $g(\mathbf{x})$ 的均方误为 $\text{MSE}(g)=\mathbb{E}[y-g(\mathbf{x})]^2$

最好的预测函数的形式是什么？以下定理表明，最好的预测函数，恰恰就是回归函数即条件期望。

定理1 MSE的最优解： $\mathbb{E}(y|\mathbf{x})$ 是以下问题的最优解： $\mathbb{E}(y|\mathbf{x}) = \arg\min_{g\in \mathbb{F}} \text{MSE}(g) = \arg\min_{g\in \mathbb{F}} \mathbb{E}[y-g(\mathbf{x})]^2$ 其中 $\mathbb{F}$ 是所有可测和平方可积函数的集合（space of all measurable and square-integrable functions）： $\mathbb{F}=\{ g:\mathbb{R}^{k+1}\to\mathbb{R} \Big| \int g^2(\mathbf{x})f_X(\mathbf{x})\,d\mathbf{x}<\infty\}$

在该定理中，直接求解最值问题比较复杂，需要用到变分法，用构造法证明该定理比较简单，直接对 $\text{MSE}(g)$ 做分解即可。令 $g_0(\mathbf{x})\equiv \mathbb{E}(y|\mathbf{x})$ ，则有

\begin{aligned} \text{MSE}(g) = &\mathbb{E}[y-g_0(\mathbf{x})+g_0(\mathbf{x})-g(\mathbf{x})]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2+2\mathbb{E}[\left(y-g_0(\mathbf{x})\right)\left(g_0(\mathbf{x})-g(\mathbf{x})\right)]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2 \end{aligned}

显然，第一项为常数，只有当第二项为 $0$ 即 $g(\mathbf{x})=g_0(\mathbf{x})$ 时， $\text{MSE}(g)$ 取到最小。

再来看一个有关回归中的扰动项的定理：

定理2 回归等式（Regresssion Identity）：给定 $\mathbb{E}(y|\mathbf{x})$ ，总是有 $y=\mathbb{E}(y|\mathbf{x})+\varepsilon$ 其中 $\varepsilon$ 为回归扰动项（regression disturbance），满足 $\mathbb{E}(\varepsilon|\mathbf{x})=0$ 。

接下来的问题是，我们该如何对这个最优解 $g_0(\mathbf{x})$ 建模？最简单地，可以用线性函数去近似它。

2 线性回归

首先，引入仿射函数的概念：

定义3 仿射函数族（Affine Functions）：记 $\mathbf{x}=(1,x_1,\ldots,x_k)'$ ， $\beta=(\beta_0,\beta_1,\ldots,\beta_k)'$ ，则仿射函数族定义为 $\mathbb{A}= \left\{g: \mathbb{R}^{k+1}\to\mathbb{R} \Big| g(\mathbf{x})=\mathbf{x}'\beta \right\}$

当我们将 $g(x)$ 的函数集合从所有可测且平方可积的函数集限制为仿射函数集后，问题转变为求解最优的参数 $\beta^*$ 使得MSE最小化，该参数就称为最优最小二乘近似系数。

定理3 最优线性最小二乘预测（Best Linear Least Squares Prediction）：假设 $E(y^2)<\infty$ 且矩阵 $\mathbb{E}(\mathbf{x}\mathbf{x}')$ 非奇异，则优化问题 $\min_{g\in\mathbb{A}} \mathbb{E}[y-g(\mathbf{x})]^2=\min_{\beta\in\mathbb{R}^{k+1}} \mathbb{E}(y-\mathbf{x}'\beta)^2$ 的解，即最优线性最小二乘预测为 $g^*(\mathbf{x})=\mathbf{x}'\beta^*$ 其中 $\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)$

证明非常容易，只需对一阶条件 $\dfrac{d\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta}\bigg|_{\beta=\beta^*}=0$ 求解即可，因为二阶条件即Hessian矩阵 $\dfrac{d^2\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta d\beta'}=\mathbb{E}(\mathbf{x}\mathbf{x}')$ 在 $\mathbb{E}(\mathbf{x}\mathbf{x}')$ 非奇异时一定是正定的。

下面正式定义线性回归模型：

定义4 线性回归模型（Linear Regression Model）： $y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1}$ 其中 $u$ 是回归模型误差（regression model error）。

那么，线性回归模型和最优线性最小二乘预测之间有什么关系？

定理4 假设定理3的条件成立， $y=\mathbf{x}'\beta+u$ ，并令 $\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)$ 为最优线性最小二乘近似系数。则 $\beta=\beta^*$ 等价于 $\mathbb{E}(\mathbf{x}u)=0$ 。

该定理的证明非常简单，需从必要性和充分性两方面证明，在此不作展开。

该定理意味着，只要正交条件 $\mathbb{E}(\mathbf{x}u)=0$ 满足，那么线性回归模型的参数值就等于最优线性最小二乘近似系数 $\beta^*$ ，二者等价。

3 模型的正确设定

均值模型怎样才是正确设定了？

定义5 条件均值模型的正确设定（Correct Model Specification in Conditional Mean）：线性回归模型 $y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1}$ 是条件均值 $\mathbb{E}(y|\mathbf{x})$ 的正确设定，若存在某个参数 $\beta^o \in \mathbb{R}^{k+1}$ 使得 $\mathbb{E}(y|\mathbf{x})=\mathbf{x}'\beta$ 。另一方面，若对于任意 $\beta\in \mathbb{R}^{k+1}$ 均有 $\mathbb{E}(y|\mathbf{x})\neq \mathbf{x}'\beta$ ，则线性回归模型是对 $\mathbb{E}(y|\mathbf{x})$ 的错误设定。

由该定义可以看到，线性回归模型设定正确的条件是存在某一参数 $\beta^o$ 使得 $\mathbb{E}(u|\mathbf{x})=0$ 。换句话说，线性回归模型设定正确的充要条件是 $\mathbb{E}(u|\mathbf{x})=0$ ，其中 $u=y-\mathbf{x}'\beta^o$ 。

下面的定理说明当均值模型设定正确时，回归模型误差项 $u$ 与真实回归扰动项 $\varepsilon$ 的关系：

定理5 如果线性回归模型 $y=\mathbf{x}'\beta+u$ 是对条件均值 $\mathbb{E}(y|\mathbf{x})$ 的正确设定，则 (1) 存在一个参数 $\beta^o$ 和一个随机变量 $\varepsilon$ ，有 $y=\mathbf{x}'\beta^o+\varepsilon$ ，其中 $\mathbb{E}(\varepsilon|\mathbf{x})=0$ ； (2) $\beta^*=\beta^o$ 。

由定义5可直接得到(1)，对于(2)，可由(1)的 $\mathbb{E}(\varepsilon|\mathbf{x})=0$ 推出 $\mathbb{E}(\mathbf{x}\varepsilon)=0$ ，再使用定理4即可得证。

为便于理解，下面用一个例子说明什么叫模型的正确设定和错误设定：

假设数据生成过程（DGP）为 $y=1+\dfrac{1}{2}x_1+\dfrac{1}{4}(x_1^2-1)+\varepsilon$ ，其中 $x_1$ 与 $\varepsilon$ 是相互独立的 $\mathcal{N}(0,1)$ 随机变量。现在如果我们用线性回归模型 $y=\mathbf{x}'\beta+u$ 对该DGP进行近似，其中 $\mathbf{x}=(1,x_1)'$ 。

经计算，我们可以解得最优线性最小二乘近似 $\beta^*=(1,\dfrac{1}{2})'$ ，而 $g^*(\mathbf{x})=1+\dfrac{1}{2}x_1$ ，可以看到其中没有包含非线性的部分。若在回归模型中取 $\beta=\beta^*$ ，由定理4，就有 $\mathbb{E}(\mathbf{x}u)=0$ ，但是，此时 $\mathbb{E}(u|\mathbf{x})=\dfrac{1}{4}(x_1^2-1)\neq 0$ ，即模型没有正确设定。

模型没有被正确设定，它会造成什么样的后果？计算可知真正的期望边际效应为 $\dfrac{\mathbb{E}(y|\mathbf{x})}{dx_1}=\dfrac{1}{2}+\dfrac{1}{2}x_1$ ，但它不等于 $\beta^*_1=\dfrac{1}{2}$ 。也就是说，模型的错误设定，会导致解出的最优线性最小二乘近似并不是真正的期望边际效用。

参考资料

洪永淼《高级计量经济学》，2011