数学建模 岭回归和lasso回归

1,384 阅读3分钟

古典线性回归的推导

古典线性回归的假定:

  • a线性假定

  • b严格外生性=>保证回归系数无偏且一致;推论:1残差期望为0,2残差和样本指标无关

  • c无完全多重共线性=>保证能估计出来;推论1样本数n>指标数k,2X'X可逆(OLS的解需要用到);若n<k,则OLS失效,故引入逐步回归、岭回归和lasso回归来解决(消去不好的自变量:减小k的个数)

  • d球型扰动项=>保证估计出来的结果是最有效的

通过上述假设进行OLS的推导:(列满秩才有解)

  • 小样本下这个更强的假设使得我们可以对回归系数进行假设检验
  • 但是如果是大样本下,由于中心极限定理,任何分布都会趋向于正态分布,我们直接用假设d也是可以进行假设检验

岭回归和Lasso回归

意义:解决多元线性回归存在多重共线性的问题

优点

  • 逐步回归的升级版
  • 即使样本数n<指标数k导致列不满秩,导致OLS最优解不存在,模型也可以进行估计!

cost function在残差平方和的基础上加了一个惩罚项 :

Linear estimation有讲到过!当X'X不可逆的时候的操作,加上一个项使得可逆。

对假定三放松了,n<k也可以了,样本数小于指标数。

选择λ:

与多元线性回归不同,岭回归和lasso回归的x必须先标准化,消除惩罚项里的量纲影响。

  • ①岭迹分析(自己选的,主观性强,一般不用)
  • VIF法,增加λ,使得hatβ的VIF均<10
  • 最小化均方预测误差+k折交叉验证(用的最多)

Lasso回归 vs 岭回归

  • Lasso回归用绝对值,难以求导,不好用!03年后提出了新的估计方法
  • Lasso回归比岭回归好!!!!
  • Lasso回归可以将不重要的回归系数变为0,但是岭回归无论如何都不会为0,最终的模型会保留所有的变量(写在论文里)
  • 缺点:没有显式解,只是近似估计算法:坐标轴下降法和最小角回归法,岭回归是显式解,用OLS解;估计的结果不太稳定,存在误差:使用最小化均方预测误差+k折交叉验证来解决!找到一个最好的λ

STATA实操

这里自变量的量纲相同所以不用标准化,如果需要标准化,那么可以借助Matlab的zscore函数,或者直接使用SPSS(分析-描述统计-描述:在描述列表的方框左下角,看到“将标准化得分另存为变量(Z)

若报错则开热点按照教程重新安装!!

cvlasso 单产 种子费 化肥费 农药费 机械费 灌溉费, lopt seed(520)

结果分析: 标准误不用管。

剔除出去的变量就是存在多重共线性问题的。

lasso回归最好只用来筛选变量!它的结果是近似计算的,有误差!所以我们用的是post-est OLS的回归系数。post-est OLS是用lasso回归最后需要的自变量扔回去重新进行多元线性回归,得到的标准OLS的估计结果。