STATA入门(11)

151 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第11天,点击查看活动详情

STATA小白入门第11讲: 应用“merge”命令进行数据的合并

在上一期的分享中,我跟大家分享了如何应用“reshape”命令进行长宽数据的转化,特别地,基于上一次的案例分享,我们通过“reshape”命令将长数据转变为宽数据之后,根据城市这一转换依据,得到了带有时间变量的GDP变量。这在日常的分析中十分有用。但是,如果我们对于当前的数据觉得不够充分,或者觉得需要收集其他的数据,正好还有另一份值得研究的数据,而且城市变量也存在于另一份数据中,我们想将两个数据库进行合并以丰富和扩大研究的内容,那么这时候应该应用“merge”命令进行合并。

举例:现有如下两份数据库1,数据库2,如何合并两份数据库得到如图数据库3形式的数据库呢?

数据库1

城市GDP(2021)GDP(2022)
北京  
上海  

  数据库2

城市教育背景婚姻状况
北京  
上海  

数据库3

CityGDP(2021)GDP(2022)教育背景婚姻状况
北京    
上海    

解答:应该用STATA中的“merge”命令进行基于城市变量的数据库的合并

第一步:导入基本数据,这一步在STATA软件中“File-Import-选择数据库的格式类型-选中数据库”实现

第二步:“merge“命令进行合并 merge m:1 city using /需要合并的数据库

第三步:删去与分析无关的“-merge”变量(这是在数据库合并的过程中自动生成的变量)drop _merge

第四步:保存导出最终数据 save "最终合并之后的数据库"

这样我们就会得到了基于城市分类的(城市为行变量),GDP(2021),GDP(2022),教育背景和婚姻状况都整合成为列变量的数据。