STATA入门(24)

152 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第24天,点击查看活动详情

软件代码小白入门第24期分享: STATA和R语言在应用上的对比(第二期) 大家好啊,接着上一期,这一次继续和大家分享一下STATA和R语言对于同一个命令在应用的差异性。本期主要体现在对变量进行列联表的绘制以及基本信息的查看。

联系1:基本信息的查看

这一命令在两个统计软件的应用中大致是相同的,都是对summarize的应用。在STATA中,summarize(变量)可以呈现出很多信息,包括观测总数,均值,标准差,最大最小值。在R语言中应用summary(变量)命令代码,但与STATA稍有不同的是,R语言的summary函数汇总的是变量的四分位数(包括最大值和最小值),平均值(针对数值型的变量),以及因子向量和逻辑向量的频数统计。可见,不同的数据统计分析软件其实是互补的,即使我们的命令都是相同的,但反应的信息不全相同。

区别1:变量频数以及频率的统计

在STATA中,对变量进行频数的统计只需要一条命令,而在STATA中通常需要两条命令

举例:假设现有一份数据,包括年龄(用age表示),和性别(用gender表示),现在我们想简单的查看一下不同性别中年龄的大致分布,包括总体的频数和频率以及分类的频数频率,两个统计软件的代码如下图所示。

STATA:

tab age gender,cloum可以直接以列联表的形式呈现出总体和分类变量的频数和频率。

R 语言:

首先还是在导入数据的时候对数据进行命名,后续想对某个变量进行分析的时候也要用$进行连接

table(dataage,dataage,datagender)

第一步是求频数

prop.table(table(dataage,dataage,datagender),2)

第二步再在其基础上求频率