开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第33天,点击查看活动详情
Python数据分析
为什么选择Python进行数据分析?
Python是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言。Python入门简单,代码可读性强,一段好的Python代码,阅读起来像是在读一篇外语文章。Python这种特性称为“伪代码”,它可以使你只关心完成什么样的工作任务,而不是纠结于Python的语法。
另外,Python是开源的,它拥有非常多优秀的库,可以用于数据分析及其他领域。更重要的是,Python与最受欢迎的开源大数据平台Hadoop具有很好的兼容性。因此,学习Python对于有志于向大数据分析岗位发展的数据分析师来说,是一件非常节省学习成本的事。
Python的众多优点让它成为最受欢迎的程序设计语言之一,国内外许多公司也已经在使用Python,例YouTube,Google,阿里云等等。
数据集的来源
一般情况,数据集是需要自己去找的,或者自己些爬虫爬下来。不过也有很多的数据集网站,例如阿里云天池。
这边推荐一个我个人比较喜欢去找数据集的网站:和鲸社区
观察数据集
首先,我们要有数据集,那么有了数据集,我们就要了解数据集里的内容是如何的,再进行相关的处理。例如数据集的内容是全英文的,我们是不是可以将它翻译一下方便我们展示。数据集内部有缺失值,我们是不是该将它填上或者怎么处理。当然处理有很多,主要看我们的需要。
那么就来操作一下我找来的数据集吧。
导包
必不可少的一步,不然我们只是对牛弹琴。
import pandas as pd
import matplotlib.pyplot as plt
写在前头的必要设置
为了更好的显示我们的数据,做些必要的设置。
主要还是有些文件列太多了,显示不过来。
# 不换行显示
pd.set_option('display.width', 1000)
# 设置None则无列数的显示限制
pd.set_option('display.max_columns', None)
# 设置value的显示长度为100,默认为50
pd.set_option('max_colwidth', 80)
# 解决列名与名字不对齐
pd.set_option('display.unicode.ambiguous_as_wide', True)
pd.set_option('display.unicode.east_asian_width', True)
查看数据
shopping_data = pd.read_csv("双十一淘宝美妆数据.csv")
print(shopping_data.head())