持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第23天,点击查看活动详情
软件代码小白入门第23期分享: STATA和R语言在应用上的对比 大家好啊,我最近听到一些建议关于软件的学习,他们建议把STATA和R这两个软件都学起来,因为这两个软件有很强的互补作用,可以最大化的进行数据的可视化,统计分析和计量。那么这一期想要和大家分享的是STATA和R语言这两个统计软件在统计分析过程中代码的一些相同之处和不同之处。其实同时作为数据统计分析的常用统计软件,统计分析的原理其实都是大同小异的,只是对于不同的分析软件,或多或少地存在一些代码命令上的差异。
首先,STATA可以支持多种数据格式,比如excel以及dta等,但是R语言通常只支持csv.格式。这提示我们在应用不同的统计软件进行数据分析的时候,应该提前有针对性的进行数据格式的转换,不然输入到目标的软件中会出现报错。STATA和R语言输入数据的命令格式见下方。
STATA:首先找到File菜单,打开后选中Import,然后选择软件支持的数据形式,这样就可以直接将数据导入到STATA。
R语言:首先将数据另存为csv格式。需要用到read.csv 这个命令,为了后续方便我们研究,其实我们可以写一行命令同时将数据导入并对数据进行命名,例如
data<-read.csv. ("数据所对应的位置/数据名.csv"),这样我们将整份数据导入的同时,也可以直接把这份数据命名为data。命名这一步在R语言中是十分重要的。
R语言和STATA对于分类变量的处理也有很大的不同。在STATA中,可以识别分类变量,但是在R语言中,需要用到as.factor命令对变量进行转化,方便R语言识别
比如,我们想对性别和婚姻状况这两个变量转化,代码见下方。
datamarital)
datagender)
这也体现出为什么一开始就要对数据进行命名,因为我们需要表示清楚变量来自于何数据。