每日一包 - pandas_profiling

299 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第23天,点击查看活动详情

介绍

做数据分析的小伙伴都熟悉pandas的使用,pandas能够帮助我们对数据进行分析,但是一些刚入门数据分析的同学想要使用pandas完成数据分析稍微有一定的困难,本文介绍的是pandas_profiling模块,该模块可以让我们实现一行代码就可以生成数据分析报告。

在数据分析中有一个概念叫做探索性数据分析(EDA),EDA指的其实就是使用某些方法用来查看数据的整体情况,比如平均值、标准差之类,如果想要更加简捷方便又快捷的了解数据的全貌,使用pandas_profiling模块可以实现一行代码进行探索性数据分析。

pandas_profiling模块基于pandas的dataframe数据类型,可以快速简单的进行探索性数据分析。对于数据集的每一列,该模块都会提供以下统计信息:

1. 概要:数据类型,唯一值,缺失值,内存大小
2. 分位数统计:最大值、最小值、中位数、Q1 Q3、值域、四分位
3. 描述性统计:均值、众数、标准差、绝对中位差、变异系数、峰值、偏度系数
4. 最频繁出现的值,直方图或者柱状图
5. 相关性分析可视化,报告可以导出为HTML

安装和使用

安装

pip install pandas-profiling

使用

代码是在jupyter notebook中进行代码实验。

数据集这里使用的是数据分析入门常用的经典泰坦尼克数据集:

import seaborn 
import pandas_profiling 
​
# 加载数据集
data = seaborn.load_dataset('titanic')
# 使用pandas_profiling生成数据探索报告
report = pandas_profiling.ProfileReport(data)
# 将报告生成至html文件中
report.to_file("report.html")

总结

pandas_profiling使用一行代码生成详细的数据探索性报告,和pandas模块结合,非常适合前期的数据探索阶段以及数据结果报告批量化生产,对于数据分析小白来讲,这是一个非常好用的工具。

更多关于该模块的使用可以参考官方文档,学习更多的关于数据分析的知识。

\