Datawale组队学习17期——Task2 数据探索性分析这次的任务属于我完全陌生的领域，所以也不进行什么扩展了，乖乖

这次的任务属于我完全陌生的领域，所以也不进行什么扩展了，乖乖地跟着教程走一遍，将每个知识点记牢就是我的目标。

首先，我在本地使用vscode来编写jupyter文件，这里我是先装好了anaconda，用anaconda创建虚拟环境，并直接使用自带的科学计算库和jupyter notebook。

在使用pandas读入数据后，首先是通过总体检视数据来获得大致的概念，通过data.info()查看数据类型，通过data.columns查看列名，通过查看数据头几行和尾几行以及shape，来了解数据的具体细节，并通过data.describe()来查看数据的基本统计指标。

接下来，通过对data.isnull()和data.nunique()的运用，我们可以查看数据中的缺失值以及缺失值分布和缺失值数量。还可以查找出都是同一个值的特征。

然后，我们可以讲数据分为数值型和目录型，数值型又分连续型和离散型，我们可以查看数据的分布，并可视化分析，查看数据的分布。

最后，我们还可以用pandas_profilling来为数据自动化生成一份数据报告，这份报告花了我半个小时的时间，里面包括对每个变量的缺失值、独特值、最大最小值乃至所占空间和分布进行了详细的分析和可视化报告。可以说是很方便的一个自动化工具。当然，最耗计算时间的还是各种关联关系，在这里都通过表格和图片的形式很直观地展现出来。