疫情时空态势分析大屏
任务
疫情时空态势分析、监控疫情发展态势、评估疫情防控措施
作品简介
作品主题:疫情时空态势分析:利用可视分析技术,分析疫情时空分布模式、监控疫情发展态势、评估疫情防控措施。
本题思路从各省累计确诊人数随时间增长的态势以及空间分布随时间增长的态势入手,利用所收集的数据将各省累计确诊人数的时空分布用地图、折线图、堆叠条形图的形式呈现出来,从总体态势进行大致分析,然后再通过在不同粒度上展示各省疫情相关的详细信息,以发现其在不同时间段影响其态势变化的原因(境外输入、相关政策颁布等)。同时还将疫情相关确诊、死亡等数据与各省的GDP、受教育程度、城镇化率、医疗卫生水平进行联系,以发现其与GDP、受教育程度、城镇化率之间是否存在关系。其目标用户是政府等防控机关,通过本系统可以分析疫情时空分布模式、监控疫情发展态势、评估疫情防控措施。
数据源
通过天行数据api获取了2种数据(数据源于爬取国家卫健委公布的疫情相关数据)
(1)weibo.json 新浪微博实时热搜前50的数据
名称 | 类型 | 示例值 | 说明 |
---|---|---|---|
hotword | string | 失踪女童确认曾在漳州出现 | 热搜话题 |
hotwordnum | string | 129940 | 热搜指数 |
(2)ProvinceData.json 省市疫情详情
名称 | 类型 | 示例值 | 说明 |
---|---|---|---|
cityName | string | 武汉 | 城市名称 |
confirmedCount | int | 495 | 确诊人数 |
suspectedCount | int | 0 | 疑似病例 |
curedCount | int | 31 | 治愈病例 |
deadCount | int | 0 | 死亡病例 |
源于中国国家统计局(2018年中国统计年鉴)的数据
cityPopulation.json 各个城市人口数量
名称 | 类型 | 示例值 | 说明 |
---|---|---|---|
Name | string | 成都 | 城市名称 |
Value | int | 1633 | 人口数量(万人) |
cityRate.json 各个省份的城镇化率
名称 | 类型 | 示例值 | 说明 |
---|---|---|---|
Name | string | 北京 | 省份名称 |
Value | int | 86.5 | 城镇化率(%) |
educationRate.json 各个省份的高等教育普及率(抽样数据,抽样比为0.82‰,研究生与本科总占比)
名称 | 类型 | 示例值 | 说明 |
---|---|---|---|
Name | string | 四川 | 省份名称 |
Value | int | 0.056785446 | 高等教育率 |
doctor.json 各省每万人拥有卫生技术人员数
名称 | 类型 | 示例值 | 说明 |
---|---|---|---|
Name | string | 四川 | 省份名称 |
Value | int | 67 | 每万人拥有卫生技术人员数量 |
Wuhan-2019-nCoV.csv
2020-01-10至2020-02-06数据来自国家,各省,武汉市卫健委疫情公告,2020-02-07后数据从今日头条接口采集
字段 说明**** | 字段 名称**** | 字段解释**** |
---|---|---|
Date | date | 更新日期 |
String | country | 国家名称 |
Country | countryCode | 国家代码 |
String | province | 省份(国外为空) |
Integer | provinceCode | 省份代码 |
String | city | 市区(国外为空) |
Integer | cityCode | 城市代码 |
Integer | confirmed | 累计确诊人数 |
Integer | suspected | 疑似人数 |
Integer | cured | 治愈人数 |
Integer | dead | 累计死亡人数 |
DXYArea.csv 数据来源为丁香园
字段名称 | 类型 | 字段解释 |
---|---|---|
continentName | string | 大洲中文名称 |
continentEnglishName | string | 大洲英文名称 |
countryName | string | 国家名称 |
countryEnglishName | string | 国家英文名称 |
provinceName | string | 省份名称 |
provinceEnglishName | string | 省份英文名称 |
province_confirmedCount | int | 累计确诊人数 |
province_suspectedCount | int | 累计疑似患者数 |
province_curedCount | int | 累计治愈数 |
province_deadCount | int | 累计死亡数 |
updateTime | date | 更新时间 |
datas.json 境外输入数据(手动从网上新闻中搜集)
名称 | 类型 | 示例值 | 说明 |
---|---|---|---|
Date | date | 2月2日 | 时间 |
provinceName | string | 辽宁 | 输入省份 |
countryName | string | 日本 | 来源国 |
Count | int | 2 | 当日输入数量 |
Total | int | 10 | 累计输入数量 |
分析任务与可视分析总体流程
分析任务:分析疫情时空分布模式、监控疫情发展态势、评估疫情防控措施。
可视分析总体流程:
- 观察全国疫情人数变化曲线、地图,总体感知疫情的时空分布态势。
通过观察全国疫情变化曲线以及全国累计确诊地图随时间变化所呈现出的空间分布模式,找出曲线变化的一些波动节点以及地图的颜色异常部分,再点击地图上相应省份查看其详细信息。
- 点击城镇化率与确诊数量,在弹出面板中,详细查看各种因素与疫情确诊人数的关系,可以查看各省的城镇化率、GDP、受教育程度与疫情确诊人数之间的一些潜在关系。
3. 点击地图上省份,在对应联动面板中查看省份详细信息,以进一步在不同粒度上分析造成不同模式的原因,例如点击湖北省,联动面板会显示湖北的详细信息。
数据处理与算法模型
对于Wuhan-2019-nCoV.csv 数据文件,因为数据来源国家卫健委,卫健委公布数据的时候采用文档发布形式,所以在爬取的时候会因为文档形式发生变化而出现一些偏差,所以对于空缺的数据,会人工去对比国家卫健委数据进行补全。
对于DXYArea.csv数据文件,其中数据爬取的时间间隔问题,导致每天可能会有多条数据,从而生成大量的冗余的重复的数据,我们通过pandas对其进行处理,对于每天相同省份或者国家的数据,我们只取其当日发布时间最晚的一条,以此作为当日数据。
4月17日国家卫健委修改了湖北累计确诊的数据,所以数据在4月17日会有小幅度波动。
可视化与交互设计
主界面:
(1)系统分为热搜词云模块、各省确诊占比、新增人数(本土/境外输入)分布、地图、疫情人数展示、城镇化率与确诊数量关系模板、境外输入top10省份、省份疫情人数分布(死亡率、感染人数占比)模块。
(2)向下滚动滑动条还有两个模块,分别是省份疫情人数变化曲线、全国疫情人数变化曲线(全国新增人数堆叠条形图)模块。
其中新增人数(本土/境外输入)分布、省份疫情人数分布(死亡率、感染人数占比)、省份疫情人数变化曲线三个模块与地图上联动,点击地图上的省份,这三个面板更新为点击省份的详细信息。
(3)地图模块可以根据拖动时间轴展现不同时间的全国累计确诊分布
(4)点击境外输入分布按钮,弹出面板显示境外输入传播图,同样可以通过拖动时间轴查看不同时间的累计境外输入数据
(5)点击地图省份,对应联动面板会显示相应省份详细信息,例如点击黑龙江,联动面板显示如图信息
(6)点击城镇化率与确诊与确诊数量关系按钮,在弹出面板中可以查看不同因素(如GDP、高等教育程度、城镇化率)与确诊人数之间的潜在联系
实验\案例\场景分析
通过观察地图上疫情分布随时间的变化,我们在空间上发现了疫情随时间变化的空间分布模式,具体模式如下:
一月初只有湖北为感染区域。
一月20号之后开始向外扩散,湖北邻近的省份几乎全部都出现了确诊患者。
从1月24号的疫情分布图能够看出除了青海、西藏其余省份几乎全部出现了确诊患者。 从2月10日能够看出全国所有省份都出现了确诊病例,且与湖北临近的省份确诊数量明显高于其他省份。
从5月13日的疫情分布图看出,总体分布趋势为:感染人数较多的地区几乎都处于胡焕庸线(黑河-腾冲)的东南板块,胡焕庸线在地理上具有着极其重要的地位,关乎农业、人口、GDP,于是我们点击城镇化率与确诊数量关系,查看详情中“各省GDP与确诊人数关系散点图”(图6-2)。发现的确GDP水平较高的省份几乎都在确诊人数上也远超其他省份,因为GDP高代表人口流动大、人口密度大,更加有利于病毒的扩散。所以在人口密度较高的城市还是要严格把关各种防疫环节,防止本土反弹,定期抽样进行核酸检测。
同时从图6-1还能够看出在地图分布上出现了一个异常情况,距离湖北很远的黑龙江颜色很深,代表其出现了大量的确诊患者。这与之前发现的临近湖北感染人数较多的规律不符合。然后我们通过全国新增确诊堆叠条形图进行分析,由于湖北的新增、累计确诊数量都远远高于其他省份,我们在查看的时候先屏蔽湖北(红色值为湖北),由于台湾、香港、澳门地区数据不完善所以我们也屏蔽香港、澳门、台湾。
可以发现3月到4月中旬,某些省份出现的小规模增长,这其中黑龙江、内蒙古、上海增长占比最大,于是我们点击这三个省份查看其详细增长人员分布。
通过新增人数(本土/境外)分布,能够看出在4月这三个省份的异常确诊人数增长是因为有大量境外输入,点击境外输入确诊分布,查看境外输入详情。
能够看出近来,中国境内涌入了一大批境外输入确诊患者,其中来源国为英国、美国、俄罗斯、巴西、西班牙的居多,这些国家也是目前全球疫情最严重的地区之一。所以,防控的一个重点是严防境外输入,严格入境程序,严格控制入境人数,入境的时候必须经过核酸检测,强制隔离14天。
讨论与总结
通过分析,我们提取出了疫情分布的时空分布态势,具体如下:
时间分布态势:2019年12月1日-2020年1月20,湖北出现小规模增长,其他省份未出现确诊患者
2020年1月20日-2020年2月12日,全国出现大规模爆发,确诊人数急剧上升,2月12日出现拐点。
2020年2月13日出现拐点,单日增长人数有所下降。
2020年2月13日-3月1日,单日增长人数日益下降。
2020年3月1日之后出湖北外省份基本清零。
2020年3月10-2020年4月15日,湖北外少数省份出现小规模增长,其主要为境外输入与无症状感染者。
空间分布态势:与时间分布态势类似
2019年12月1日-2020年1月20,湖北出现确诊患者,其他省份未出现确诊患者。
2020年1月21日-2020年1月29日,全国陆续出现确诊患者。
2020年1月30日-2020年3月1日,临近湖北地区确诊患者出现大规模爆发。
2020年3月2日-目前,少数省份,如黑龙江、广东、北京、内蒙古出现小规模爆发。
空间分布总体态势表现为:确诊人数较多的区域多分布于胡焕庸线的东南部分,这与其人口密度、人口流动具有极大的关系。
防控重点:
后疫情时代的防控主要应该聚焦于防止境外输入以及无症状感染者的防控。
对于境外输入:
严格控制入境程序以及人数,对于入境人员必须严格审查其病例史、接触史(是否来自疫情严重国家),对于入境人员需100%检测其核酸是否为阳性。检测期间需进行严格的隔离。同时着重聚焦于四大航空枢纽地区(北京、上海、广州、成都),这种航空枢纽是防控的重中之重,因为每天的客流量巨大,境外来往的人流量大。同时还应该关注中国边境省份,如内蒙古、黑龙江、西藏、新疆,在边境很多地区地广人稀,容易出现偷渡人员,同时很多边境地区的医疗水平有限,无法及时的进行检测与治疗。
对于无症状感染者:目前对于无症状感染者的信息公布较少,一般只公布的人数信息,希望之后能够进一步公布其相对较为详细的信息,如活动轨迹等。同时每隔一段时间应该按照医学领域的标准进行科学有效的抽样核酸检测,以了解地区中无症状感染者的情况。