这次的任务属于我完全陌生的领域,所以也不进行什么扩展了,乖乖地跟着教程走一遍,将每个知识点记牢就是我的目标。
首先,我在本地使用vscode来编写jupyter文件,这里我是先装好了anaconda,用anaconda创建虚拟环境,并直接使用自带的科学计算库和jupyter notebook。
在使用pandas读入数据后,首先是通过总体检视数据来获得大致的概念,通过data.info()查看数据类型,通过data.columns查看列名,通过查看数据头几行和尾几行以及shape,来了解数据的具体细节,并通过data.describe()来查看数据的基本统计指标。
接下来,通过对data.isnull()和data.nunique()的运用,我们可以查看数据中的缺失值以及缺失值分布和缺失值数量。还可以查找出都是同一个值的特征。
然后,我们可以讲数据分为数值型和目录型,数值型又分连续型和离散型,我们可以查看数据的分布,并可视化分析,查看数据的分布。
最后,我们还可以用pandas_profilling来为数据自动化生成一份数据报告,这份报告花了我半个小时的时间,里面包括对每个变量的缺失值、独特值、最大最小值乃至所占空间和分布进行了详细的分析和可视化报告。可以说是很方便的一个自动化工具。当然,最耗计算时间的还是各种关联关系,在这里都通过表格和图片的形式很直观地展现出来。