STATA (4)

150 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第4天,点击查看活动详情

STATA小白入门第4讲-描述性统计分析中的常见命令应用,主要是关于分类变量的统计,频率和频数的计算等。

大家好啊,上次三期笔记和大家分享了如何对变量分类,包括二分类变量和多分类变量,以及如何对变量添加标签等操作,以便获得清晰的分类模式。因为本人的研究方向比较侧重公共卫生的领域,平时也会写一些文章,在撰写论文的时候,根据这一方向普遍的文章架构来看,第一个图表大多为描述性统计的结果呈现。比如描述总体样本人数,以及各个样本变量不同类别的人数及其占比等,目的就是为了给读者呈现一个较为具体的数据分布,使得读者对我们的研究对象更加熟悉。表格大多为三线表,内容包含变量名称,变量分类,以及相对应的频数,和频率等。那么今天,我就在这里和大家分享一下,如何用STATA命令进行二维频数频率表的整合。需要用到的命令主要为“tab”

举例:现在有三个变量,年龄(age),性别(gender)和教育程度(education),年龄包括“小于40岁”和“大于等于40岁”, 教育程度包括“本科学历” “硕士学历“和“博士学历”那么我们关注的问题是:如何根据性别分类求出男性和女性在年龄和教育程度的频数和频率呢?

代码

tabulate age gender

tabulate age gender,colum

tabulate education gender

tabulate education gender,colum

只需要应用“tab”命令就可以把两个变量组合成为2X2列联表的形式,并且colum的后缀可以直接得到相应分类的百分比,特别适合描述性统计中根据分类变量进行频数和频率的统计。