昨天抓取的数据今天来搞一下

281 阅读1分钟

以昨天抓取的数据为例子,一窥python进行数据分析流程。当然,现实情况是:此次抓取的数据,数据量小、可用字段少。不过,只是以此为例,初探究竟。

首先,昨天我们抓取的数据是以json格式存储到文件中的。读取json文件,python的pandas可以大显身手,使用及其方便。

**
**

1. 读入数据


\

导入pandas这个package,直接调用pandas中的read_json方法。

\

通过head查看此数据框的第一行,由于字段较多,pandas只显示首尾部分,结果不再展示。

\

2. 清洗数据

\

  • 剔除重复项目

认为同一个wx_origin_id的是同一个微信号,所以要使用参数subset,否则会默认检查所有字段,只有两条数据所有字段的值都相等时,才算是重复数据。

\

以上代码的结果如下所示:

\

  • 检查空值

\

3. 描述性分析

\

比如可以看看预估粉丝量排名

mydata.sort_values('fans_num_estimate', ascending=False).head(10)['wx_alias']

\

mydata.sort_values('fans_num_estimate', ascending=False).head(10).loc[:,['wx_alias','fans_num_estimate']]

\

\

欢迎点击下方二维码,关注《数据分析师手记》,跟三月桑一起学习数据分析

\

\