上一篇《小样本OLS回归的框架》讲解了小样本OLS回归的主要框架,本文沿着该框架,对小样本OLS回归做一个全面的梳理。
1 假设
这里先将所有的小样本OLS回归中可能用到的假设放到一起,方便浏览。当然,后面的每一个结论并不是要用到所有的假设,而是只用到某几个假设,这在后面讲每个结论时会具体说明。
- 假设1 线性性:yi=xi′β+εi,其中β是未知参数向量,将所有N个样本放到一起,可以写成y=Xβ+ε,其中X是N×K矩阵;
- 假设2 严格外生性:E(ε∣X)=0;
- 假设3 非奇异性:X′X是非奇异的;
- 假设4 球形扰动项:E(ε∣X)=σ2In;
- 假设5 条件正态扰动项 ε∣X∼N(0,σ2In);
- 假设6 无近似多重共线性:当n→∞时,X′X的最小特征值λmin(X′X)→∞的概率为1。
其中,假设3等价于rank(X)=K。假设6只在个别资料中会出现,它排除了近似多重共线性的可能。另外,假设4说明了扰动项没有自相关性并且是同方差的,假设5包含了假设4,假设5只在需要推导β^的抽样分布及其相关问题时需要用到。
2 β的点估计及其性质
2.1 β的点估计
通过求解β^=argminSSR(β),在假设3成立时很容易得到β^=(X′X)−1Xy,这就是点估计。
我们将线性回归的残差记为e=y−Xβ^。
在后续的推导中,主要用到的是点估计β^与真实β的差,利用假设1,有β^−β=(X′X)−1X′ε。
2.2 β^的性质
首先,β^的条件期望就等于β,即它是条件无偏的,利用假设4,可以得到E(β^−β∣X)=0。当然,在无条件下它也是无偏的。
它的条件方差很好计算,由定义和假设4,Var(β^∣X)=σ2(X′X)−1。若假设6也成立,则对于任何K×1且满足τ′τ=1的向量τ,有当n→∞时,τ′Var(β^∣X)τ→0。这意味着,只要不存在近似多重共线性,那么只要数据足够多,β^的方差就会趋近于0,反之,若出现了近似多重共线性,方差就很难靠收集数据来补救。
可以证明,在所有的线性无偏估计量中,β^具有最小的方差,这就是Gauss-Markov定理。它表明,对于任意一个其他的线性无偏估计量b^,Var(b^∣X)−Var(β^∣X)必为半正定矩阵。
对于未知的参数σ2,可以用残差的方差估计量s2=e′e/(N−K)来估计它。这也是一个无偏估计量,即E(s2∣X)=σ2。
3 β^的抽样分布及假设检验
3.1 β^的抽样分布
由于是小样本,因此对于扰动项分布的假设至关重要。光靠假设4是不够的,必须要用更强的假设5。
有了假设5,可以得出β^也服从条件正态分布:
β^−β∣X∼N(0,σ2(X′X)−1)
对于任意J×K的非随机矩阵R,有
R(β^−β)∣X∼N(0,σ2R(X′X)−1R′)
3.2 拟合优度
线性回归模型对数据的拟合情况怎样?可以用拟合优度来表达。下式为非中心化R2的表达式:
Ruc2≡y′yy^′y^=1−y′ye′e
下式是中心化R2,又叫决定系数(Coefficient of Determination):
R2≡1−(y−yˉℓ)′(y−yˉℓ)e′e
其实,R2就是y和y^之间的相关系数平方:R2=ρ^yy^2。
3.3 一些辅助结论和定理
定理1 正态随机变量的二次型 m维随机向量v∼N(0,Im),Q是m×m的非随机对称幂等矩阵,rank(Q)=q≤m,则v′Qv∼χq2。
定理2 q维随机向量Z∼N(0,V),其中V=Var(v)是q×q的对称、非奇异的协方差矩阵,则Z′V−1Z∼χq2。
由定理1,可以得到σ2(N−K)s2∼χN−K2。
另外,Cov(β^,e∣X)=0,并且e和β^服从联合正态分布,这是因为
[eβ^−β]=[In−X(X′X)−1X′(X′X)−1X′]ε
而由假设5,ε服从条件正态分布,因此上式是ε的线性组合,也服从以X为条件的联合正态分布。而对于联合正态分布来说,不相关性等价于独立性,因此,e和β^是独立的。
3.4 假设检验
3.4.1 F检验
我们可以对如Rβ=r这样的零假设进行假设检验,其中R为J×K的矩阵。
若零假设成立,那么
Rβ^−r=R(β^−β)
由3.1节,我们可知
Rβ^−r∣X∼N(0,σ2R(X′X)−1R′)
再利用定理2,可以得出
(Rβ^−r)′[σ2R(X′X)−1R′]−1(Rβ^−r)∣X∼χJ2
由于分布χJ2不依赖于X,因此,上式的无条件分布也服从χJ2分布。
但问题在于σ2是未知的,因此上式是无法计算的。解决办法是利用s2替代它,这样替代后,再稍作处理(除以J),我们可以推导出一个不一样的分布,也就是F统计量:
F==∼s2(Rβ^−r)′[R(X′X)−1R′]−1(Rβ^−r)/J(N−K)s2/σ2/(N−K)(Rβ^−r)′[σ2R(X′X)−1R′]−1(Rβ^−r)/JFJ,N−K
为何服从F分布?可以从分子为χJ2分布除以J、分母为χN−K2分布除以N−K、分子与分母中的变量β^与e相互独立三个条件证明。
从另一个角度,记e为无约束回归的残差,记e~为在约束Rβ=r下的回归的残差,那么F统计量又可以写为
F=e′e/(N−K)(e~′e~−e′e)/J
3.4.2 t检验
当J=1时,Rβ^−r和σ2R(X′X)−1R′变成了标量,不必再用二次型的形式构造出χ12分布,而是可以直接构造正态分布形式:
[σ2R(X′X)−1R′]−1/2(Rβ^−r)∼N(0,1)
只要再对上一节F统计量的分母也相应求平方根,就可以得到T统计量:
T≡=∼s2R(X′X)−1R′Rβ^−r(N−K)s2/σ2/(N−K)[σ2R(X′X)−1R′]−1/2(Rβ^−r)tN−K
从而可进行t检验。