古典线性回归的推导
古典线性回归的假定:
-
a线性假定
-
b严格外生性=>保证回归系数无偏且一致;推论:1残差期望为0,2残差和样本指标无关
-
c无完全多重共线性=>保证能估计出来;推论1样本数n>指标数k,2X'X可逆(OLS的解需要用到);若n<k,则OLS失效,故引入逐步回归、岭回归和lasso回归来解决(消去不好的自变量:减小k的个数)
-
d球型扰动项=>保证估计出来的结果是最有效的
通过上述假设进行OLS的推导:(列满秩才有解)
- 小样本下这个更强的假设使得我们可以对回归系数进行假设检验
- 但是如果是大样本下,由于中心极限定理,任何分布都会趋向于正态分布,我们直接用假设d也是可以进行假设检验的
岭回归和Lasso回归
意义:解决多元线性回归存在多重共线性的问题
优点:
- 逐步回归的升级版
- 即使样本数n<指标数k导致列不满秩,导致OLS最优解不存在,模型也可以进行估计!
cost function在残差平方和的基础上加了一个惩罚项 :
Linear estimation有讲到过!当X'X不可逆的时候的操作,加上一个项使得可逆。
对假定三放松了,n<k也可以了,样本数小于指标数。
选择λ:
与多元线性回归不同,岭回归和lasso回归的x必须先标准化,消除惩罚项里的量纲影响。
- ①岭迹分析(自己选的,主观性强,一般不用)
- VIF法,增加λ,使得hatβ的VIF均<10
- 最小化均方预测误差+k折交叉验证(用的最多)
Lasso回归 vs 岭回归
- Lasso回归用绝对值,难以求导,不好用!03年后提出了新的估计方法
- Lasso回归比岭回归好!!!!
- Lasso回归可以将不重要的回归系数变为0,但是岭回归无论如何都不会为0,最终的模型会保留所有的变量(写在论文里)
- 缺点:没有显式解,只是近似估计算法:坐标轴下降法和最小角回归法,岭回归是显式解,用OLS解;估计的结果不太稳定,存在误差:使用最小化均方预测误差+k折交叉验证来解决!找到一个最好的λ
STATA实操
这里自变量的量纲相同所以不用标准化,如果需要标准化,那么可以借助Matlab的zscore函数,或者直接使用SPSS(分析-描述统计-描述:在描述列表的方框左下角,看到“将标准化得分另存为变量(Z)
若报错则开热点按照教程重新安装!!
cvlasso 单产 种子费 化肥费 农药费 机械费 灌溉费, lopt seed(520)
结果分析:
标准误不用管。
剔除出去的变量就是存在多重共线性问题的。
lasso回归最好只用来筛选变量!它的结果是近似计算的,有误差!所以我们用的是post-est OLS的回归系数。post-est OLS是用lasso回归最后需要的自变量扔回去重新进行多元线性回归,得到的标准OLS的估计结果。