项目地址:github.com/vibe-GIF/qu… 如果觉得有用,点个 ⭐ Star 支持一下~
起因:我受够了每次都重复写那几行代码
作为数据科学方向的学生 / 从业者,你一定有这种体验:
每次拿到一份新的 CSV,第一件事永远是那套「开胃菜」——
df.head()
df.info()
df.describe()
df.isnull().sum()
# 然后再手动画几个分布图、看一眼相关性……
每次都写,每次都一样,看完还得自己脑补「这数据到底干不干净」。更难受的是,看完这些 print 出来的东西,想发给同学 / 导师 / 队友看,还得截一堆图。
于是我花了点时间,把这套流程封装成了一个工具:QuickEDA。
它能做什么
一句话:输入一个 CSV,输出一份精美的 HTML 数据分析报告。
pip install quickeda
quickeda data.csv
# ✓ 报告已生成:data_report.html (耗时 0.42s)
打开生成的 HTML,你会看到:
- 📋 数据集概览:行列数、内存占用、缺失/重复一目了然
- 🕳️ 缺失值分析:哪些列缺失、缺多少,自动标红
- 📈 数值列画像:均值/中位数/偏度 + 直方图 + IQR 异常值检测
- 🏷️ 类别列画像:唯一值、Top 取值、占比 + 条形图
- 🔗 相关性分析:相关系数热力图 + 自动列出强相关列对
而且报告是单文件 HTML,图表全内嵌,发给谁都能直接打开,不依赖联网。中文显示也都处理好了。
怎么用
命令行
# 最简单
quickeda data.csv
# 指定输出 + 标题 + 生成后自动打开浏览器
quickeda data.csv -o report.html -t "销售数据分析" --open
# 读 GBK 编码 / 分号分隔的 CSV(国内数据常见)
quickeda data.csv --encoding gbk --sep ";"
# Excel / Parquet 也支持
quickeda data.xlsx
在 Python 代码里
import quickeda
# 传文件路径
quickeda.profile("data.csv", "report.html")
# 或者直接传一个 DataFrame
import pandas as pd
df = pd.read_csv("data.csv")
quickeda.profile(df, title="我的数据", open_browser=True)
想直接看效果?
仓库里自带一个示例数据生成脚本,特意造了缺失值、异常值、重复行、强相关列,专门用来演示:
python examples/generate_sample.py # 生成 sample_sales.csv
quickeda sample_sales.csv --open # 生成并打开报告
为什么不用 pandas-profiling / ydata-profiling?
那些库很强,但也很「重」——依赖多、生成慢、报告体积大。QuickEDA 的定位是轻量、快、中文友好:核心只依赖 pandas / numpy / matplotlib,几百行代码,0.5 秒出报告,适合快速过一遍数据。
如果你需要更深度的分析,再上重型工具也不迟。
最后
这是个刚起步的小项目,功能还在慢慢加(时间序列趋势图、目标列分组对比、PDF 导出都在 Roadmap 上)。
如果你也经常和数据打交道,欢迎试试看:
觉得有用的话,点个 ⭐ Star 是对我最大的鼓励,也欢迎提 Issue / PR 一起完善 🙌