阅读 169

5步快速学习数据分析,Python的可视化应用干货

 大家好,我是白云。

这篇跟大家一起来看一下怎么样用python做数据分析,这大概是我写过最详细的一篇干货了。我会分五步来跟大家详细的展示一套完整的数据分析流程是怎么样的,那我们一起来看一下吧。

数据分析流程

数据分析的流程和思路主要分为五部分,分别是提出问题、收集数据、数据处理和清洗、数据分析以及可视化。

那我们先从提出问题和数据收集开始,一般想收集数据主要有四种来源:观测、统计、问卷、调研、数据库以及网络爬虫。

三、数据清洗

1数据预处理

#导入数据分析包
import pandas as pd
import numpy as np
▲理解这份数据集
▲结合代码来看数据.

2调整数据类型

3修改列名

4选择部分子集

5逻辑问题需要筛选

6格式一致化
▲大小写/去除空格
▲去除字符串符号 去乱码
▲空格分割

7处理缺失值

四、数据分析

那么下面就跟大家介绍一下Pandas和Numpy两个数据分析包。

Python这种编程语言在数据处理的许多方面都有非常多成熟的已经编写好的模块,只要几行代码就能解决一个复杂的操作,可以说是站在前人的肩膀上起飞。

在python中Numpy、pandas这两个就是前人的肩膀。Numpy作为一个科学计算模块,提供了一个叫做n维数组的数据类型,可以实现复杂的数据批量计算,而且内置大量函数,让计算更加高效科学,甚至支持线性代数、特征向量、广义逆矩阵、超几何分布。

另一个强大的模块是pandas,它提供了series和Data Frame这两种数据类型,和一大堆用于操作大型数据集的内置函数,为你的数据分析插上了想象的翅膀。例如从几万行混合脏数据的视频会员订单数据中挖掘用户购买规律,制定简单的量化交易策略,衡量股票投资收益,甚至设立入门的数据挖掘和数据预测等领域,获得深入洞察,而这些都依赖于Numpy和Pandas的数据类型。

五、数据可视化

大部分人对形状、颜色的敏感度要高于数字,所以数据可视化能让人快速的理解数据,发现问题或规律,找到数据背后隐藏的价值,从数据中发现关系、规律和趋势。

Python中常用的可视化工具matplotlib和它的子模块pyplot可视化图表有很多种,比如日常工作中常
见的折线图、柱狀图、散点图等。根据数据之间的关系和想要展示的目的可以將图表归纳为5大类:趋势、分布、构成、比较和联系。

Matplotlib

学习方式:从examples入门学习

Python的2D绘图库,仅需要几行代码,便可以生成绘图,直方图,功率谱,条形
图,散点图等。而且代码官网都已经写好给我们啦!只要复制粘贴改数据就可以咯~

plotly

Python数据可视化开发库,它提供了完善的交互能力和灵活的绘制选项,官网有很全面的代码教学。

学习资源推荐

Python 基础篇

1、首先推荐 「A Byte of Python3(中文版)」这本书

这本书是我读过的最适合初学者的一本,内容尽量简洁易懂,虽然不会将一些知识的复杂用法全部讲透,但是说实话很多复杂功能尤其在初学阶段真的用不到。

这本书原版是英文,但由于英文版更新了,而国内的官方指定中文译本还未更新,所以被 GitHub 上的一位大佬翻译,并将其放在 GitHub 上供大家下载。不过我时间有点长我已经找不到当初的网站了,只有电子版的书。另外也可以阅读官方中文译本。

官方中文译本:bop.mol.uno/

2、廖雪峰的 Python 教程

这可以说是国内 Python 最全面的免费教程了。甚至可以当做工具书来查看,不过对于初学者可能内容跨度会稍微有点大,导致连贯性欠佳,所以建议先看完上面推荐的电子书,再来看这个。

课程网址:www.liaoxuefeng.com/

3、「利用Python进行数据分析·第2版」

当 Python 已经入门后,就可以看这本关于数据分析的书。这本书可以说是不可多得的关于数据分析的好书,里面不光对 Python 数据分析的工具(Jupyter notebook)进行了讲解,而且还详细的讲解了 Numpy 库和 Pandas 库,这两个可以说是数据分析的最重要的库了。

而且还是根据数据分析的流程一步步的去讲解每个流程、需要的操作以及这些操作需要用到的函数。虽说没有一个完整的项目,但看完后完全可以当做工具书来查询。强烈推荐。

电子书网址:www.jianshu.com/p/04d180d90…

4、科赛网(Kesci)的「这十套练习,教你如何使用Pandas做数据分析」

在学习了上面的 Python 知识后,那么也该实战一下了。这个网站提供了十个实际问题的练习,并且提供在线的编程环境(和 Jupyter notebook的界面很像),最重要的是提供了数据集。可以说是帮你准备了一切,让你可以专心的去思考。

网址:www.kesci.com/home/projec…

5、当你将上面的都全部学完,这时候就可以正式开始你数据分析师的第一个项目了,这个项目就是「泰坦尼克号数据分析」,这可以说是数据分析的经典项目了,很多人进入数据分析行业都是从这个项目开始的。虽然将这个项目写入简历没什么,但对提升自己而言,绝对是非常棒的。为什么这么说?因为网上关于该数据集的分析文章非常多,这样你自己做完整个项目后可以参考很多其他人的意见,吸取别人的分析思维,这是非常关键的地方。初学阶段最快的提升办法其实就是模仿。

我是白云,一名喜欢分享知识的程序员,感兴趣的就赶紧来点击关注我把,哪里有不明白或有不同观点的地方欢迎留言!

\

文章分类
后端