1 一元回归与多元回归
任何一本初级水平的计量经济学、统计学或机器学习相关书籍,都会详细推导多元线性线性回归的解,在这里就不再赘述。
我们给出本文用到的一些设定。y为N维因变量向量,假设y=Xβ+ϵ,如果自变量为p维,将X排为N×(p+1)矩阵,其中第一列x⋅0=1N为全是1的截距项,我们有最小二乘估计:
β^=(X′X)−1X′y
如果是单变量回归,并且没有截距项的话,将自变量记为N维向量x,y=x′β中β的最小二乘估计为
β^=x′xx′y
二者有何联系?如果在多变量回归中,X的列向量相互正交即X′X为对角矩阵,则可以得出,每个系数的估计值为β^j=x⋅j′x⋅jx⋅j′y。
这给了我们一种启示,能否构造出相互正交的一些维度?
2 Gram–Schmidt过程
我们用如下过程计算β^p:
- z⋅0=x⋅0=1N;
- 遍历j=1,…,p:用x⋅j对l=0,…,j−1的每个z⋅l分别做无截距项的一元线性回归,分别得到系数γ^lj=z⋅l′z⋅lz⋅l′x⋅j,最后得到z⋅j=x⋅j−∑k=0j=1γ^kjz⋅k;
- 再用y对z⋅p做无截距项的一元回归,得到最终的β^p=z⋅p′z⋅pz⋅p′y。
由于x⋅p只在z⋅p中出现,并且与z⋅0,…,z⋅p−1均正交,因此有以上结果。若ϵ∼N(0,σ2IN),则该估计的方差可以写为
Var(β^p)=z⋅p′z⋅pz⋅p′Var(y)z⋅p′z⋅pz⋅p=z⋅p′z⋅pσ2
注意到,每一个维度都可以作为第p维,因此,每一个β^j都可以用这样的方法得出。
3 QR分解
如果补充上γ^jj=0,其中j=0,…,p,将所有的γ^ij排成(p+1)×(p+1)的上三角矩阵Γ,同时再记Z=(z⋅0,z⋅1,…,z⋅p),则有
再构造一个(p+1)×(p+1)的对角矩阵D,对角线元素为Dii=∥z⋅i∥,即Z′Z=D2,在上式中间插入D−1D=Ip+1,则有
X=ZΓ=ZD−1DΓ
记Q=ZD−1,R=DΓ,这就是矩阵X的QR分解:X=QR。
由于Z的列向量相互正交,因此Q′Q=D−1Z′ZD=Ip+1,而R还是一个上三角矩阵。利用QR分解,我们可以将最小二乘估计写为
β^=R−1Q′y
并有拟合值
y^=QQ′y
由于R是上三角矩阵,且最后一行为(0,…,0,∥z⋅p∥),因此R−1也是上三角矩阵,且最后一行为(0,…,0,1/∥z⋅p∥)。再利用Q=(z⋅0/∥z⋅0∥,z⋅1/∥z⋅1∥,…,z⋅p/∥z⋅p∥),可得出R−1Q′的最后一行为z⋅p′/∥z⋅p∥2,因此,有
β^p=z⋅p′y/∥z⋅p∥2
这也与第2节的结果一致。
参考文献
- Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media, 2009.