持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第26天,点击查看活动详情
软件代码小白入门第26期分享: STATA和R语言在应用上的对比(第四期)。大家好啊,这一期还是继续和大家分享STATA和R语言在数据分析应用上的相同点和不同点。其实STATA和R语言各有各的特点和优势,但不要忽略软件是一类工具,只要能解决我们当前的问题,学习哪一个都是一样的。即时我们不熟悉软件的原理,当我们遇到问题的时候,带着问题去学去尝试也是一种比较有效率的方法。
为了方便大家的入门,这一期侧重比较一下卡方检验在STATA软件和R语言中的不同代码命令,通过不同软件之间的操作对比,实地深入理解两个不同统计软件的异同。假设现有一份数据,涵盖了性别(用gender表示),教育程度(用education表示,包括本科,硕士和博士三类),婚姻状况(用marital表示,包括结过婚和未结过婚的两类),以及其他常见的人口统计学变量数据等。现阶段,如果我们想探究教育程度和婚姻状态在不同性别之间的差异,应该用卡方检验来进行分析。STATA和R语言的检验命令代码见下方。
STATA:
主要用“tab”命令,并在命令结尾处添加“chi2”后缀
tab education gender,chi2
tab marital gender,chi2
R语言
主要用到“chisq.test”命令,但是前提是对导入的数据进行命名,并用“table”对两个变量生成2X2列联表样式的表格数据。
第一步:对导入的数据进行命名
data<-read.csv("数据库所在的位置/数据库原命名.csv")
第二步:将变量转为分类变量
datagender)
dataeducation)
datamarital)
第三步:基于data数据库对变量education和marital分别和gender生成2X2列联表,然后应用“chisq.test”命令进行卡方检验。
table(datagender)
prop.table(table(datagender),2)
chisq.test(table(datagender))
table(datagender)
prop.table(table(datagender),2)
chisq.test(table(datagender))