STATA入门（11）持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第11天，点击查看活动详情 S

持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第11天，点击查看活动详情

STATA小白入门第11讲: 应用“merge”命令进行数据的合并

在上一期的分享中，我跟大家分享了如何应用“reshape”命令进行长宽数据的转化，特别地，基于上一次的案例分享，我们通过“reshape”命令将长数据转变为宽数据之后，根据城市这一转换依据，得到了带有时间变量的GDP变量。这在日常的分析中十分有用。但是，如果我们对于当前的数据觉得不够充分，或者觉得需要收集其他的数据，正好还有另一份值得研究的数据，而且城市变量也存在于另一份数据中，我们想将两个数据库进行合并以丰富和扩大研究的内容，那么这时候应该应用“merge”命令进行合并。

举例：现有如下两份数据库1，数据库2，如何合并两份数据库得到如图数据库3形式的数据库呢？

数据库1

城市	GDP（2021）	GDP（2022）
北京
上海

数据库2

城市	教育背景	婚姻状况
北京
上海

数据库3

City	GDP（2021）	GDP（2022）	教育背景	婚姻状况
北京
上海

解答：应该用STATA中的“merge”命令进行基于城市变量的数据库的合并

第一步：导入基本数据，这一步在STATA软件中“File-Import-选择数据库的格式类型-选中数据库”实现

第二步：“merge“命令进行合并 merge m:1 city using /需要合并的数据库

第三步：删去与分析无关的“-merge”变量（这是在数据库合并的过程中自动生成的变量）drop _merge

第四步：保存导出最终数据 save "最终合并之后的数据库"

这样我们就会得到了基于城市分类的（城市为行变量），GDP（2021），GDP（2022），教育背景和婚姻状况都整合成为列变量的数据。