持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第22天,点击查看活动详情
STATA小白入门第22期分享: 结合STATA命令代码进行数据挖掘(接上一期)
大家好啊,上一期我跟大家分享了如何初步的进行数据挖掘和分析。本期,我要分享的是,如何更加深入的挖掘数据。
书接上一回,当我们只有“是否在疫情初期上班(work)”和“疫情初期身心状况(health)”这两个主要变量以及一些基本的人口统计学变量时,附带说一下一份问卷所涉及的内容肯定不止上述几个变量,我们根据问卷调查收集的将会是多方面多维度内容丰富的数据,但如果将数据以文章的形式转化成研究成果时,并不是数据越多,研究的内容越多就越好。相反,如果能够对某一个方面进行侧重是十分推荐的,因为研究的数据越多,会增大数据的重复性。那么针对我们当前的这一问题,对于有限的变量我们如何扩大我们的研究领域呢。我的一个经验是我们可以结合一些公开的统计数据。如果想体现新冠疫情对护士工作及心理健康的影响。首先我们可以根据是否在疫情初期上班对护士分成两类,通过卡方检验或者T检验来判断护士的一些统计学变量在是否在疫情初期上班这两类人群中是否有差异。此外,我们也可以找一些公开的统计数据,比如在疫情初期各个地方的患病数,或者患病率。通过计算患病率的中位数或者平均数,对患病率或者累积确诊数分成两类,按照这一分类来分析护士的差异性进行了解新冠对于护士的影响。代码见下方。
1. 根据是否在新冠初期上班来分类, 思路是先计算频数频率再进行卡方检验
tab age covid1,colum
tab age covid1,chi2
2.根据患病率(PAL)的中位数进行分类,思路是首先生成一个二分类的患病率变量,然后再计算频数频率以及卡方检验
gen prevalence=0
egen median_PAL=median (PAL)
replace prevalence=1 if PAL>median_PAL
tab age prevalence,colum
tab age prevalence,chi2