3 个 Python 办公自动化实战项目（Excel+PDF + 可视化），可直接接单变现告别加班！3 个 Python

markdown

Python 批量数据处理工具集

Excel 批量处理 + PDF 信息提取 + 销售数据可视化 | 适用于数据处理类结单场景

📋 项目简介

本项目包含 3 个高频实用的数据处理工具，基于 Python 开发，适用于企业日常数据处理、报告生成、合同信息提取等场景，可直接用于接单交付：

工具 1：Excel 批量处理 - 合并多文件、去重、缺失值处理、格式优化
工具 2：PDF 合同信息提取 - 批量提取甲方/乙方、金额、签订日期，生成汇总 Excel
工具 3：销售数据可视化 - 生成趋势图、区域分布、产品排名等专业图表

🔧 环境准备

依赖库安装

运行以下命令安装所有依赖：

pip install pandas openpyxl pymupdf matplotlib seaborn
依赖说明
库名称	用途	关联工具
pandas	数据读取、处理、汇总	所有工具
openpyxl	Excel 文件读写（.xlsx 格式）	工具 1、工具 2
pymupdf (fitz)	PDF 文本提取	工具 2
matplotlib/seaborn	专业图表生成	工具 3
🛠️ 工具详情
工具 1：Excel 批量处理工具
文件路径：excel_batch_process.py

核心功能：

批量读取指定文件夹下所有 .xlsx 格式文件

自动添加「数据来源」列，追溯原始文件

缺失值处理：删除「日期、产品名称、销售额」关键列缺失的行

重复值处理：删除完全重复的行（可自定义去重列）

格式优化：将「销售额」转为数值类型，避免计算错误

生成汇总 Excel 文件，无冗余索引列

输入：Excel 文件文件夹（仅支持 .xlsx 格式）
输出：单份汇总 Excel 文件（含清洗后的数据）

工具 2：PDF 合同信息提取工具
文件路径：pdf_batch_extract.py

核心功能：

批量读取指定文件夹下所有 PDF 文件

文本深度清洗：保留中文、数字、企业后缀、日期符号「-」

智能提取：甲方、乙方（基于企业名称后缀特征）

金额提取：识别大额数字（4位以上），返回最大值

日期提取：优先识别 YYYY-MM-DD 格式，统计高频日期，过滤不合理日期

生成标准化合同信息汇总 Excel（含文件名、甲乙双方、金额、签订日期）

输入：PDF 文件文件夹（支持常规合同 PDF，需含可复制文本）
输出：合同信息汇总 Excel 文件

工具 3：销售数据可视化工具
文件路径：sales_visualization.py

核心功能：

读取销售数据汇总 Excel 文件

自动生成 3 张专业图表（支持直接用于企业报告）：

每日销售额趋势图（折线图）

各区域销售额分布柱状图（带数值标注）

TOP5 产品销量排名图（水平柱状图）

中文显示优化，无负号显示异常

高分辨率输出（300 DPI），支持缩放无失真

输入：销售数据汇总 Excel（需含「日期、区域、产品名称、销量、销售额」列）
输出：3 张 PNG 格式图表（保存至指定文件夹）

📂 目录结构
text
Python-Data-Tools/
├── excel_batch_process.py       # Excel批量处理工具
├── pdf_batch_extract.py         # PDF合同信息提取工具
├── sales_visualization.py       # 销售数据可视化工具
├── Excel_Batch_Process/         # Excel工具数据目录
│   ├── input_excel/             # 待处理Excel文件存放处
│   └── output_excel/            # 汇总结果输出目录
├── PDF_Info_Extract/            # PDF工具数据目录
│   ├── input_pdf/               # 待提取PDF文件存放处
│   └── output_excel/            # 汇总结果输出目录
├── Sales_Data_Visualization/    # 可视化工具数据目录
│   ├── input_excel/             # 销售数据Excel存放处
│   └── output_charts/           # 图表输出目录
└── README.html                  # 本说明文档
🚀 使用步骤
通用步骤
克隆本仓库到本地：git clone <仓库地址>

安装依赖（参考「环境准备」章节）

根据工具要求，将待处理文件放入对应 input_xxx 文件夹

修改代码中 INPUT_DIR、OUTPUT_DIR 等路径配置（Windows 路径用 \\ 或 r'' 修饰）

运行对应 Python 文件：python 文件名.py

在 output_xxx 文件夹查看结果

示例：运行 Excel 批量处理工具
python
# 1. 将所有待处理的Excel文件放入 Excel_Batch_Process/input_excel/
# 2. 修改代码中的路径配置（按需调整）
INPUT_DIR = r"Excel_Batch_Process/input_excel"
OUTPUT_DIR = r"Excel_Batch_Process/output_excel"
OUTPUT_FILENAME = "门店销售数据汇总表.xlsx"

# 3. 运行命令
python excel_batch_process.py
⚠️ 注意事项
⚠️ 文件格式要求：

Excel 工具仅支持 .xlsx 格式（不支持 .xls 老格式）

PDF 工具仅支持含可复制文本的 PDF（扫描件 PDF 需先 OCR 转文字）

可视化工具要求输入 Excel 必须包含指定列（日期、区域、产品名称、销量、销售额）

⚠️ 路径配置注意：

Windows 系统路径需使用双反斜杠 \\ 或 raw 字符串（前缀 r）

确保输入文件夹路径正确，否则会提示「未读取到有效文件」

📌 自定义调整：

Excel 工具可修改 key_columns 变量，自定义缺失值处理的关键列

PDF 工具可扩展 keep_words 变量，增加更多企业后缀词（如「研究院、事务所」）

可视化工具可调整图表尺寸（figsize）、颜色（color/palette）、标题等样式

📌 中文显示问题：

Windows 系统默认使用「黑体」（SimHei），Mac 系统需修改为「Arial Unicode MS」

若图表中文显示方块，需手动安装对应字体并调整 plt.rcParams["font.sans-serif"]

📌 结单备注
所有工具均已封装为函数，支持直接调用或二次开发

代码包含详细注释，便于向客户解释功能逻辑

输出结果标准化（Excel 无索引列、图表高分辨率），符合企业交付要求

可根据客户需求快速调整参数（如字段名称、图表样式、处理规则）

📞 维护信息
项目用途：数据处理类接单快速交付工具集

更新记录：2026-01-20 初始版本（包含 3 个核心工具）

备注：后续可根据新增需求扩展工具（如 CSV 处理、多sheet合并、更多图表类型）