写在前面:
有任何R语言培训需求和问题,可以私信我,R语言操作的疑问都可以得到解答哒。(ps因为内容都是原创的,所以禁止各种商用哈,转载要注明来源哈)
正文:
2021年7月5号公布的一个包——covidregionaldata,用来获取地方和国家层面的COVID-19数据,这个数据来自官方来源,如公共卫生在英国,英格兰和其他COVID-19数据收集,包括世界卫生组织(世卫组织),欧洲疾病预防和控制中心(ECDC),约翰·霍普金斯大学(JHU),谷歌公开数据等等。旨在以公开和透明的方式简化来自各种数据源的COVID-19数据提取、清理和处理。
本文用来演示这个包来获取COVID-19数据的过程。为了方面查阅备用,可收藏呦!喜欢的小伙伴点个赞哈或者关注一下~
1. 以WHO为例的COVID-19数据下载过程梳理
在这个包中提供的数据源除了WHO之外,还包括Belgium, Brazil, Canada, Colombia, Covid19DataHub, Cuba, France, Germany, Google, India, Italy, JHU, Lithuania, Mexico, Netherlands, SouthAfrica, Switzerland, UK。下载方式都很类似,这里以WHO为例来探索下载数据的过程。
在new这个方法中,各参数的作用如下:
level='1'用来设置城市数据,level='2'用来设置regions数据,level默认为'1',level='3'用来设置子regions数据
verbose默认为TRUE。是否应该返回详细的处理消息和警告;
step=TRUE用来保存每个处理步骤的数据;get用来获取数据
library(covidregionaldata)
start_using_memoise()
national <- WHO$new(verbose = TRUE, steps = TRUE, get = TRUE)
下图是数据下载的过程,可以看到数据的下载源:
Downloading data from covid19.who.int/WHO-COVID-1…
和一些数据的基本变量的情况,比如数据的类型,数据的行数和列数
national$return()
(1)用return来返回所有数据的结果,且用了DT方式来展现了表格结果,真的是蛮漂亮的
针对WHOreturn的结果,共返回5个表格,基本数据都是一致的,就是各表格会在一些字段上有区别。
显示数据包括的城市或者地区信息,这里打印的是城市列表
national$available_regions()
并不是所有的数据来源都有地区数据的,WHO就没有level='2'的设置,Covid19DataHub$new(level = "2") 这个就可以
(2) 有设置下载的功能,直接这个即可
national$download()
(3) 有设置筛选功能,只需要filter即可;也可以在最开始的new部分,设置参数region='Albania'
national$filter("Albania")
national$process()
national$return()
(4) 我在尝试使用时发现一个错误点,就是频繁多次的调用new方法后,会被数据源网站拦截,不知道是不是触发了一些反扒机制~
这个error点后续可以看看是不是我的网络和ip问题~