持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第7天,点击查看活动详情
STATA小白入门第7讲: 线性回归分析
STATA由于本身的强大功能性,深受数据分析使用者的欢迎。其中线性回归是统计学中应用十分广泛的分析方法,也是第一个进行十分深入研究的分析方法,到现在为止十分常用,而且学会了线性回归的方法,对于其他回归比如Logistic回归,有序回归等也可以举一反三。因此,掌握线性回归的原理和代码是十分重要的。线性回归是用来确定变量之间相互的定量关系的统计学方法,主要包括一元线性回归分析和多远线性回归分析。
一元线性回归分析指的是只有一个自变量(解释变量)和一个因变量(连续型变量)的回归,而往往我们需要在模型里添加多个变量来控制潜在的混杂因素和中介变量,因为一元线性回归模型没有对混杂因素等其他解释变量进行控制,结果很有可能会造成偏倚。所以这样由多个自变量(解释变量)和一个因变量的回归模型成为多元线性回归模型。
STATA线性回归的代表主要是“reg”,格式通常为 “reg 被解释变量 解释变量”,其中解释变量可有多个变量,一同纳入模型进行分析。
举例: 经济学中的研究离不开谈及收入,决定收入的因素有很多,那么我们想探究性别是否影响收入呢?(收入用income表示,性别用gender表示)
解答: 根据“reg”命令的格式,这里收入为被解释变量,性别为解释变量,代码应改写成 “reg income gender”,这就是一元线性回归模型。但是,不仅是性别影响收入,教育背景,工作时长等变量也会影响收入,那么我们可以把教育背景education和工作时长workinghours一同纳入模型,这样的模型成为多元线性回归模型。代码应为 “reg income gender education workinghours”。