我写了个小工具:一行命令,秒出数据分析报告(开源)

4 阅读2分钟

项目地址:github.com/vibe-GIF/qu… 如果觉得有用,点个 ⭐ Star 支持一下~

起因:我受够了每次都重复写那几行代码

作为数据科学方向的学生 / 从业者,你一定有这种体验:

每次拿到一份新的 CSV,第一件事永远是那套「开胃菜」——

df.head()
df.info()
df.describe()
df.isnull().sum()
# 然后再手动画几个分布图、看一眼相关性……

每次都写,每次都一样,看完还得自己脑补「这数据到底干不干净」。更难受的是,看完这些 print 出来的东西,想发给同学 / 导师 / 队友看,还得截一堆图。

于是我花了点时间,把这套流程封装成了一个工具:QuickEDA

它能做什么

一句话:输入一个 CSV,输出一份精美的 HTML 数据分析报告。

pip install quickeda
quickeda data.csv
# ✓ 报告已生成:data_report.html  (耗时 0.42s)

打开生成的 HTML,你会看到:

  • 📋 数据集概览:行列数、内存占用、缺失/重复一目了然
  • 🕳️ 缺失值分析:哪些列缺失、缺多少,自动标红
  • 📈 数值列画像:均值/中位数/偏度 + 直方图 + IQR 异常值检测
  • 🏷️ 类别列画像:唯一值、Top 取值、占比 + 条形图
  • 🔗 相关性分析:相关系数热力图 + 自动列出强相关列对

而且报告是单文件 HTML,图表全内嵌,发给谁都能直接打开,不依赖联网。中文显示也都处理好了。

怎么用

命令行

# 最简单
quickeda data.csv

# 指定输出 + 标题 + 生成后自动打开浏览器
quickeda data.csv -o report.html -t "销售数据分析" --open

# 读 GBK 编码 / 分号分隔的 CSV(国内数据常见)
quickeda data.csv --encoding gbk --sep ";"

# Excel / Parquet 也支持
quickeda data.xlsx

在 Python 代码里

import quickeda

# 传文件路径
quickeda.profile("data.csv", "report.html")

# 或者直接传一个 DataFrame
import pandas as pd
df = pd.read_csv("data.csv")
quickeda.profile(df, title="我的数据", open_browser=True)

想直接看效果?

仓库里自带一个示例数据生成脚本,特意造了缺失值、异常值、重复行、强相关列,专门用来演示:

python examples/generate_sample.py   # 生成 sample_sales.csv
quickeda sample_sales.csv --open     # 生成并打开报告

为什么不用 pandas-profiling / ydata-profiling?

那些库很强,但也很「重」——依赖多、生成慢、报告体积大。QuickEDA 的定位是轻量、快、中文友好:核心只依赖 pandas / numpy / matplotlib,几百行代码,0.5 秒出报告,适合快速过一遍数据。

如果你需要更深度的分析,再上重型工具也不迟。

最后

这是个刚起步的小项目,功能还在慢慢加(时间序列趋势图、目标列分组对比、PDF 导出都在 Roadmap 上)。

如果你也经常和数据打交道,欢迎试试看:

👉 github.com/vibe-GIF/qu…

觉得有用的话,点个 ⭐ Star 是对我最大的鼓励,也欢迎提 Issue / PR 一起完善 🙌