Python学习第三十三天,简易的数据分析(一)

129 阅读2分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第33天,点击查看活动详情

Python数据分析

为什么选择Python进行数据分析?

Python是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言。Python入门简单,代码可读性强,一段好的Python代码,阅读起来像是在读一篇外语文章。Python这种特性称为“伪代码”,它可以使你只关心完成什么样的工作任务,而不是纠结于Python的语法。

另外,Python是开源的,它拥有非常多优秀的库,可以用于数据分析及其他领域。更重要的是,Python与最受欢迎的开源大数据平台Hadoop具有很好的兼容性。因此,学习Python对于有志于向大数据分析岗位发展的数据分析师来说,是一件非常节省学习成本的事。

Python的众多优点让它成为最受欢迎的程序设计语言之一,国内外许多公司也已经在使用Python,例YouTube,Google,阿里云等等。

数据集的来源

    一般情况,数据集是需要自己去找的,或者自己些爬虫爬下来。不过也有很多的数据集网站,例如阿里云天池。

这边推荐一个我个人比较喜欢去找数据集的网站:和鲸社区

观察数据集

    首先,我们要有数据集,那么有了数据集,我们就要了解数据集里的内容是如何的,再进行相关的处理。例如数据集的内容是全英文的,我们是不是可以将它翻译一下方便我们展示。数据集内部有缺失值,我们是不是该将它填上或者怎么处理。当然处理有很多,主要看我们的需要。

那么就来操作一下我找来的数据集吧。

导包

必不可少的一步,不然我们只是对牛弹琴。

import pandas as pd
import matplotlib.pyplot as plt

写在前头的必要设置

为了更好的显示我们的数据,做些必要的设置。

主要还是有些文件列太多了,显示不过来。

# 不换行显示
pd.set_option('display.width', 1000)

# 设置None则无列数的显示限制
pd.set_option('display.max_columns', None)

# 设置value的显示长度为100,默认为50
pd.set_option('max_colwidth', 80)

# 解决列名与名字不对齐
pd.set_option('display.unicode.ambiguous_as_wide', True)
pd.set_option('display.unicode.east_asian_width', True)

查看数据

shopping_data =  pd.read_csv("双十一淘宝美妆数据.csv")
print(shopping_data.head())

效果

image.png