小样本OLS回归梳理

548 阅读4分钟

上一篇《小样本OLS回归的框架》讲解了小样本OLS回归的主要框架,本文沿着该框架,对小样本OLS回归做一个全面的梳理。

1 假设

这里先将所有的小样本OLS回归中可能用到的假设放到一起,方便浏览。当然,后面的每一个结论并不是要用到所有的假设,而是只用到某几个假设,这在后面讲每个结论时会具体说明。

  • 假设1 线性性yi=xiβ+εiy_i=x_i'\beta+\varepsilon_i,其中β\beta是未知参数向量,将所有NN个样本放到一起,可以写成y=Xβ+εy=X\beta+\varepsilon,其中XXN×KN\times K矩阵;
  • 假设2 严格外生性E(εX)=0\mathbb{E}(\varepsilon|X)=0
  • 假设3 非奇异性XXX'X是非奇异的;
  • 假设4 球形扰动项E(εX)=σ2In\mathbb{E}(\varepsilon|X)=\sigma^2I_n
  • 假设5 条件正态扰动项 εXN(0,σ2In)\varepsilon|X\sim \mathcal{N}(0,\sigma^2I_n)
  • 假设6 无近似多重共线性:当nn\to \infty时,XXX'X的最小特征值λmin(XX)\lambda_\text{min}(X'X)\to\infty的概率为1。

其中,假设3等价于rank(X)=K\text{rank}(X)=K。假设6只在个别资料中会出现,它排除了近似多重共线性的可能。另外,假设4说明了扰动项没有自相关性并且是同方差的,假设5包含了假设4,假设5只在需要推导β^\hat\beta的抽样分布及其相关问题时需要用到。

2 β\beta的点估计及其性质

2.1 β\beta的点估计

通过求解β^=argminSSR(β)\hat{\beta}=\arg\min \text{SSR}(\beta),在假设3成立时很容易得到β^=(XX)1Xy\hat\beta=(X'X)^{-1}Xy,这就是点估计。

我们将线性回归的残差记为e=yXβ^e=y-X\hat\beta

在后续的推导中,主要用到的是点估计β^\hat\beta与真实β\beta的差,利用假设1,有β^β=(XX)1Xε\hat\beta-\beta=(X'X)^{-1}X'\varepsilon

2.2 β^\hat\beta的性质

首先,β^\hat\beta条件期望就等于β\beta,即它是条件无偏的,利用假设4,可以得到E(β^βX)=0\mathbb{E}(\hat\beta-\beta|X)=0。当然,在无条件下它也是无偏的。

它的条件方差很好计算,由定义和假设4,Var(β^X)=σ2(XX)1\text{Var}(\hat\beta|X)=\sigma^2(X'X)^{-1}。若假设6也成立,则对于任何K×1K\times 1且满足ττ=1\tau'\tau=1的向量τ\tau,有当nn\to \infty时,τVar(β^X)τ0\tau'\text{Var}(\hat\beta|X)\tau\to 0。这意味着,只要不存在近似多重共线性,那么只要数据足够多,β^\hat\beta的方差就会趋近于0,反之,若出现了近似多重共线性,方差就很难靠收集数据来补救。

可以证明,在所有的线性无偏估计量中,β^\hat\beta具有最小的方差,这就是Gauss-Markov定理。它表明,对于任意一个其他的线性无偏估计量b^\hat bVar(b^X)Var(β^X)\text{Var}(\hat b|X)-\text{Var}(\hat\beta|X)必为半正定矩阵。

对于未知的参数σ2\sigma^2,可以用残差的方差估计量s2=ee/(NK)s^2=e'e/(N-K)来估计它。这也是一个无偏估计量,即E(s2X)=σ2\mathbb{E}(s^2|X)=\sigma^2

3 β^\hat\beta的抽样分布及假设检验

3.1 β^\hat\beta的抽样分布

由于是小样本,因此对于扰动项分布的假设至关重要。光靠假设4是不够的,必须要用更强的假设5。

有了假设5,可以得出β^\hat\beta也服从条件正态分布:

β^βXN(0,σ2(XX)1)\hat\beta-\beta|X\sim \mathcal{N}\left(0,\sigma^2(X'X)^{-1}\right)

对于任意J×KJ\times K的非随机矩阵RR,有

R(β^β)XN(0,σ2R(XX)1R)R(\hat\beta-\beta)|X\sim \mathcal{N}\left(0,\sigma^2R(X'X)^{-1}R'\right)

3.2 拟合优度

线性回归模型对数据的拟合情况怎样?可以用拟合优度来表达。下式为非中心化R2R^2的表达式:

Ruc2y^y^yy=1eeyyR^2_{uc}\equiv \dfrac{\hat y'\hat y}{y'y} = 1-\dfrac{e'e}{y'y}

下式是中心化R2R^2,又叫决定系数(Coefficient of Determination):

R21ee(yyˉ)(yyˉ)R^2\equiv 1-\dfrac{e'e}{(y-\bar y \ell)'(y-\bar y\ell)}

其实,R2R^2就是yyy^\hat y之间的相关系数平方:R2=ρ^yy^2R^2=\hat\rho^2_{y\hat y}

3.3 一些辅助结论和定理

定理1 正态随机变量的二次型 mm维随机向量vN(0,Im)v\sim\mathcal{N}(0,I_m)QQm×mm\times m的非随机对称幂等矩阵,rank(Q)=qm\text{rank}(Q)=q\le m,则vQvχq2v'Qv\sim\chi^2_q

定理2 qq维随机向量ZN(0,V)Z\sim\mathcal{N}(0,V),其中V=Var(v)V=\text{Var}(v)q×qq\times q的对称、非奇异的协方差矩阵,则ZV1Zχq2Z'V^{-1}Z\sim\chi^2_q

由定理1,可以得到(NK)s2σ2χNK2\dfrac{(N-K)s^2}{\sigma^2}\sim\chi^2_{N-K}

另外,Cov(β^,eX)=0\text{Cov}(\hat\beta, e|X)=0,并且eeβ^\hat\beta服从联合正态分布,这是因为

[eβ^β]=[InX(XX)1X(XX)1X]ε\left[\begin{matrix} e\\ \hat\beta-\beta \end{matrix}\right] =\left[\begin{matrix} I_n-X(X'X)^{-1}X'\\ (X'X)^{-1}X' \end{matrix}\right]\varepsilon

而由假设5,ε\varepsilon服从条件正态分布,因此上式是ε\varepsilon的线性组合,也服从以XX为条件的联合正态分布。而对于联合正态分布来说,不相关性等价于独立性,因此,eeβ^\hat\beta独立的。

3.4 假设检验

3.4.1 FF检验

我们可以对如Rβ=rR\beta=r这样的零假设进行假设检验,其中RRJ×KJ\times K的矩阵。

若零假设成立,那么

Rβ^r=R(β^β)R\hat\beta-r=R(\hat\beta-\beta)

由3.1节,我们可知

Rβ^rXN(0,σ2R(XX)1R)R\hat\beta-r|X\sim \mathcal{N}\left(0,\sigma^2R(X'X)^{-1}R'\right)

再利用定理2,可以得出

(Rβ^r)[σ2R(XX)1R]1(Rβ^r)XχJ2(R\hat\beta-r)'[\sigma^2R(X'X)^{-1}R']^{-1}(R\hat\beta-r)|X \sim \chi^2_J

由于分布χJ2\chi^2_J不依赖于XX,因此,上式的无条件分布也服从χJ2\chi^2_J分布。

但问题在于σ2\sigma^2是未知的,因此上式是无法计算的。解决办法是利用s2s^2替代它,这样替代后,再稍作处理(除以JJ),我们可以推导出一个不一样的分布,也就是FF统计量:

F=(Rβ^r)[R(XX)1R]1(Rβ^r)/Js2=(Rβ^r)[σ2R(XX)1R]1(Rβ^r)/J(NK)s2/σ2/(NK)FJ,NK\begin{aligned} F=&\dfrac{(R\hat\beta-r)'[R(X'X)^{-1}R']^{-1}(R\hat\beta-r)/J}{s^2}\\ =& \dfrac{(R\hat\beta-r)'[\sigma^2R(X'X)^{-1}R']^{-1}(R\hat\beta-r)/J}{(N-K)s^2/\sigma^2/(N-K)}\\ \sim& F_{J, N-K} \end{aligned}

为何服从FF分布?可以从分子为χJ2\chi^2_J分布除以JJ、分母为χNK2\chi^2_{N-K}分布除以NKN-K、分子与分母中的变量β^\hat\betaee相互独立三个条件证明。

从另一个角度,记ee为无约束回归的残差,记e~\tilde e为在约束Rβ=rR\beta=r下的回归的残差,那么FF统计量又可以写为

F=(e~e~ee)/Jee/(NK)F=\dfrac{(\tilde e'\tilde e-e'e)/J}{e'e/(N-K)}

3.4.2 tt检验

J=1J=1时,Rβ^rR\hat\beta-rσ2R(XX)1R\sigma^2R(X'X)^{-1}R'变成了标量,不必再用二次型的形式构造出χ12\chi^2_1分布,而是可以直接构造正态分布形式:

[σ2R(XX)1R]1/2(Rβ^r)N(0,1)[\sigma^2R(X'X)^{-1}R']^{-1/2}(R\hat\beta-r)\sim \mathcal{N}(0,1)

只要再对上一节FF统计量的分母也相应求平方根,就可以得到TT统计量:

TRβ^rs2R(XX)1R=[σ2R(XX)1R]1/2(Rβ^r)(NK)s2/σ2/(NK)tNK\begin{aligned} T\equiv& \dfrac{R\hat\beta-r}{\sqrt{s^2R(X'X)^{-1}R'}}\\ =& \dfrac{[\sigma^2R(X'X)^{-1}R']^{-1/2}(R\hat\beta-r)}{\sqrt{(N-K)s^2/\sigma^2/(N-K)}}\\ \sim& t_{N-K} \end{aligned}

从而可进行tt检验。