STATA入门(21)

152 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第21天,点击查看活动详情

STATA小白入门第21期分享:  结合STATA卡方检验和T检验的原理,如何最大化的应用现有的数据大家好啊,这段时间我在搬砖的时候发现,当我们知道的数据很局限时,其实并不能完全决定我们研究的广度。在此结合STATA的卡方检验和T检验的命令代码举一个小例子。

新冠的影响是当前研究中一个非常热门的话题,因为新冠对于我们的方方面面都有着或多或少的影响。比如,现阶段我们想研究新冠疫情对于护士的影响时,我们前期在设置问卷中的问题时可能会考虑后期想分析的内容。比如,是否在疫情初期上班,疫情初期的身心状况是否受到了影响等。其实上述两个与新冠有关的问题就可以反应样本中的很多信息。首先,我们可以根据样本人群是否在新冠疫情初期上班将样本分为两类。然后根据卡方检验或者T检验探究不同变量之间的差异。假设“是否在疫情初期上班”变量命名为work,是一个二分类(是/否)变量。“疫情初期的身心状况”命名为health,是一个七分类的李克特量表(也可以根据量表得分的中位数/平均数生成二分类变量health1)。那么我们可以根据检验来探究变量如age,gender的差异。

代码命令为:

tab age work, colum

tab age work, chi2

reg health work

logit i.health1 i.work, or

其次,我们也可以将这一变量与身心健康变量纳入线性回归或者Logistic回归模型来分析,是否参与新冠疫情的防控与身心健康变化之间的关系。再次,我们可以搜集一些公开的统计数据,将其与现有数据相结合,非常丰富的扩大了现有的研究选择。比如我们可以找到疫情初期的累积确诊数,并将其根据中位数或者平均数分成两类,这样我们可以探究低新冠疫情地区和较高新冠疫情地区的人群差异。具体将在下期与大家分享。