markdown
Python 批量数据处理工具集
Excel 批量处理 + PDF 信息提取 + 销售数据可视化 | 适用于数据处理类结单场景
📋 项目简介
本项目包含 3 个高频实用的数据处理工具,基于 Python 开发,适用于企业日常数据处理、报告生成、合同信息提取等场景,可直接用于接单交付:
- 工具 1:Excel 批量处理 - 合并多文件、去重、缺失值处理、格式优化
- 工具 2:PDF 合同信息提取 - 批量提取甲方/乙方、金额、签订日期,生成汇总 Excel
- 工具 3:销售数据可视化 - 生成趋势图、区域分布、产品排名等专业图表
🔧 环境准备
依赖库安装
运行以下命令安装所有依赖:
pip install pandas openpyxl pymupdf matplotlib seaborn
依赖说明
库名称 用途 关联工具
pandas 数据读取、处理、汇总 所有工具
openpyxl Excel 文件读写(.xlsx 格式) 工具 1、工具 2
pymupdf (fitz) PDF 文本提取 工具 2
matplotlib/seaborn 专业图表生成 工具 3
🛠️ 工具详情
工具 1:Excel 批量处理工具
文件路径:excel_batch_process.py
核心功能:
批量读取指定文件夹下所有 .xlsx 格式文件
自动添加「数据来源」列,追溯原始文件
缺失值处理:删除「日期、产品名称、销售额」关键列缺失的行
重复值处理:删除完全重复的行(可自定义去重列)
格式优化:将「销售额」转为数值类型,避免计算错误
生成汇总 Excel 文件,无冗余索引列
输入:Excel 文件文件夹(仅支持 .xlsx 格式)
输出:单份汇总 Excel 文件(含清洗后的数据)
工具 2:PDF 合同信息提取工具
文件路径:pdf_batch_extract.py
核心功能:
批量读取指定文件夹下所有 PDF 文件
文本深度清洗:保留中文、数字、企业后缀、日期符号「-」
智能提取:甲方、乙方(基于企业名称后缀特征)
金额提取:识别大额数字(4位以上),返回最大值
日期提取:优先识别 YYYY-MM-DD 格式,统计高频日期,过滤不合理日期
生成标准化合同信息汇总 Excel(含文件名、甲乙双方、金额、签订日期)
输入:PDF 文件文件夹(支持常规合同 PDF,需含可复制文本)
输出:合同信息汇总 Excel 文件
工具 3:销售数据可视化工具
文件路径:sales_visualization.py
核心功能:
读取销售数据汇总 Excel 文件
自动生成 3 张专业图表(支持直接用于企业报告):
每日销售额趋势图(折线图)
各区域销售额分布柱状图(带数值标注)
TOP5 产品销量排名图(水平柱状图)
中文显示优化,无负号显示异常
高分辨率输出(300 DPI),支持缩放无失真
输入:销售数据汇总 Excel(需含「日期、区域、产品名称、销量、销售额」列)
输出:3 张 PNG 格式图表(保存至指定文件夹)
📂 目录结构
text
Python-Data-Tools/
├── excel_batch_process.py # Excel批量处理工具
├── pdf_batch_extract.py # PDF合同信息提取工具
├── sales_visualization.py # 销售数据可视化工具
├── Excel_Batch_Process/ # Excel工具数据目录
│ ├── input_excel/ # 待处理Excel文件存放处
│ └── output_excel/ # 汇总结果输出目录
├── PDF_Info_Extract/ # PDF工具数据目录
│ ├── input_pdf/ # 待提取PDF文件存放处
│ └── output_excel/ # 汇总结果输出目录
├── Sales_Data_Visualization/ # 可视化工具数据目录
│ ├── input_excel/ # 销售数据Excel存放处
│ └── output_charts/ # 图表输出目录
└── README.html # 本说明文档
🚀 使用步骤
通用步骤
克隆本仓库到本地:git clone <仓库地址>
安装依赖(参考「环境准备」章节)
根据工具要求,将待处理文件放入对应 input_xxx 文件夹
修改代码中 INPUT_DIR、OUTPUT_DIR 等路径配置(Windows 路径用 \\ 或 r'' 修饰)
运行对应 Python 文件:python 文件名.py
在 output_xxx 文件夹查看结果
示例:运行 Excel 批量处理工具
python
# 1. 将所有待处理的Excel文件放入 Excel_Batch_Process/input_excel/
# 2. 修改代码中的路径配置(按需调整)
INPUT_DIR = r"Excel_Batch_Process/input_excel"
OUTPUT_DIR = r"Excel_Batch_Process/output_excel"
OUTPUT_FILENAME = "门店销售数据汇总表.xlsx"
# 3. 运行命令
python excel_batch_process.py
⚠️ 注意事项
⚠️ 文件格式要求:
Excel 工具仅支持 .xlsx 格式(不支持 .xls 老格式)
PDF 工具仅支持含可复制文本的 PDF(扫描件 PDF 需先 OCR 转文字)
可视化工具要求输入 Excel 必须包含指定列(日期、区域、产品名称、销量、销售额)
⚠️ 路径配置注意:
Windows 系统路径需使用双反斜杠 \\ 或 raw 字符串(前缀 r)
确保输入文件夹路径正确,否则会提示「未读取到有效文件」
📌 自定义调整:
Excel 工具可修改 key_columns 变量,自定义缺失值处理的关键列
PDF 工具可扩展 keep_words 变量,增加更多企业后缀词(如「研究院、事务所」)
可视化工具可调整图表尺寸(figsize)、颜色(color/palette)、标题等样式
📌 中文显示问题:
Windows 系统默认使用「黑体」(SimHei),Mac 系统需修改为「Arial Unicode MS」
若图表中文显示方块,需手动安装对应字体并调整 plt.rcParams["font.sans-serif"]
📌 结单备注
所有工具均已封装为函数,支持直接调用或二次开发
代码包含详细注释,便于向客户解释功能逻辑
输出结果标准化(Excel 无索引列、图表高分辨率),符合企业交付要求
可根据客户需求快速调整参数(如字段名称、图表样式、处理规则)
📞 维护信息
项目用途:数据处理类接单快速交付工具集
更新记录:2026-01-20 初始版本(包含 3 个核心工具)
备注:后续可根据新增需求扩展工具(如 CSV 处理、多sheet合并、更多图表类型)