3 个 Python 办公自动化实战项目(Excel+PDF + 可视化),可直接接单变现

3 阅读5分钟

markdown

Python 批量数据处理工具集

Excel 批量处理 + PDF 信息提取 + 销售数据可视化 | 适用于数据处理类结单场景

📋 项目简介

本项目包含 3 个高频实用的数据处理工具,基于 Python 开发,适用于企业日常数据处理、报告生成、合同信息提取等场景,可直接用于接单交付:

  • 工具 1:Excel 批量处理 - 合并多文件、去重、缺失值处理、格式优化
  • 工具 2:PDF 合同信息提取 - 批量提取甲方/乙方、金额、签订日期,生成汇总 Excel
  • 工具 3:销售数据可视化 - 生成趋势图、区域分布、产品排名等专业图表

🔧 环境准备

依赖库安装

运行以下命令安装所有依赖:

pip install pandas openpyxl pymupdf matplotlib seaborn
依赖说明
库名称	用途	关联工具
pandas	数据读取、处理、汇总	所有工具
openpyxl	Excel 文件读写(.xlsx 格式)	工具 1、工具 2
pymupdf (fitz)	PDF 文本提取	工具 2
matplotlib/seaborn	专业图表生成	工具 3
🛠️ 工具详情
工具 1:Excel 批量处理工具
文件路径:excel_batch_process.py

核心功能:

批量读取指定文件夹下所有 .xlsx 格式文件

自动添加「数据来源」列,追溯原始文件

缺失值处理:删除「日期、产品名称、销售额」关键列缺失的行

重复值处理:删除完全重复的行(可自定义去重列)

格式优化:将「销售额」转为数值类型,避免计算错误

生成汇总 Excel 文件,无冗余索引列

输入:Excel 文件文件夹(仅支持 .xlsx 格式)
输出:单份汇总 Excel 文件(含清洗后的数据)

工具 2:PDF 合同信息提取工具
文件路径:pdf_batch_extract.py

核心功能:

批量读取指定文件夹下所有 PDF 文件

文本深度清洗:保留中文、数字、企业后缀、日期符号「-」

智能提取:甲方、乙方(基于企业名称后缀特征)

金额提取:识别大额数字(4位以上),返回最大值

日期提取:优先识别 YYYY-MM-DD 格式,统计高频日期,过滤不合理日期

生成标准化合同信息汇总 Excel(含文件名、甲乙双方、金额、签订日期)

输入:PDF 文件文件夹(支持常规合同 PDF,需含可复制文本)
输出:合同信息汇总 Excel 文件

工具 3:销售数据可视化工具
文件路径:sales_visualization.py

核心功能:

读取销售数据汇总 Excel 文件

自动生成 3 张专业图表(支持直接用于企业报告):

每日销售额趋势图(折线图)

各区域销售额分布柱状图(带数值标注)

TOP5 产品销量排名图(水平柱状图)

中文显示优化,无负号显示异常

高分辨率输出(300 DPI),支持缩放无失真

输入:销售数据汇总 Excel(需含「日期、区域、产品名称、销量、销售额」列)
输出:3 张 PNG 格式图表(保存至指定文件夹)

📂 目录结构
text
Python-Data-Tools/
├── excel_batch_process.py       # Excel批量处理工具
├── pdf_batch_extract.py         # PDF合同信息提取工具
├── sales_visualization.py       # 销售数据可视化工具
├── Excel_Batch_Process/         # Excel工具数据目录
│   ├── input_excel/             # 待处理Excel文件存放处
│   └── output_excel/            # 汇总结果输出目录
├── PDF_Info_Extract/            # PDF工具数据目录
│   ├── input_pdf/               # 待提取PDF文件存放处
│   └── output_excel/            # 汇总结果输出目录
├── Sales_Data_Visualization/    # 可视化工具数据目录
│   ├── input_excel/             # 销售数据Excel存放处
│   └── output_charts/           # 图表输出目录
└── README.html                  # 本说明文档
🚀 使用步骤
通用步骤
克隆本仓库到本地:git clone <仓库地址>

安装依赖(参考「环境准备」章节)

根据工具要求,将待处理文件放入对应 input_xxx 文件夹

修改代码中 INPUT_DIR、OUTPUT_DIR 等路径配置(Windows 路径用 \\ 或 r'' 修饰)

运行对应 Python 文件:python 文件名.py

在 output_xxx 文件夹查看结果

示例:运行 Excel 批量处理工具
python
# 1. 将所有待处理的Excel文件放入 Excel_Batch_Process/input_excel/
# 2. 修改代码中的路径配置(按需调整)
INPUT_DIR = r"Excel_Batch_Process/input_excel"
OUTPUT_DIR = r"Excel_Batch_Process/output_excel"
OUTPUT_FILENAME = "门店销售数据汇总表.xlsx"

# 3. 运行命令
python excel_batch_process.py
⚠️ 注意事项
⚠️ 文件格式要求:

Excel 工具仅支持 .xlsx 格式(不支持 .xls 老格式)

PDF 工具仅支持含可复制文本的 PDF(扫描件 PDF 需先 OCR 转文字)

可视化工具要求输入 Excel 必须包含指定列(日期、区域、产品名称、销量、销售额)

⚠️ 路径配置注意:

Windows 系统路径需使用双反斜杠 \\ 或 raw 字符串(前缀 r)

确保输入文件夹路径正确,否则会提示「未读取到有效文件」

📌 自定义调整:

Excel 工具可修改 key_columns 变量,自定义缺失值处理的关键列

PDF 工具可扩展 keep_words 变量,增加更多企业后缀词(如「研究院、事务所」)

可视化工具可调整图表尺寸(figsize)、颜色(color/palette)、标题等样式

📌 中文显示问题:

Windows 系统默认使用「黑体」(SimHei),Mac 系统需修改为「Arial Unicode MS」

若图表中文显示方块,需手动安装对应字体并调整 plt.rcParams["font.sans-serif"]

📌 结单备注
所有工具均已封装为函数,支持直接调用或二次开发

代码包含详细注释,便于向客户解释功能逻辑

输出结果标准化(Excel 无索引列、图表高分辨率),符合企业交付要求

可根据客户需求快速调整参数(如字段名称、图表样式、处理规则)

📞 维护信息
项目用途:数据处理类接单快速交付工具集

更新记录:2026-01-20 初始版本(包含 3 个核心工具)

备注:后续可根据新增需求扩展工具(如 CSV 处理、多sheet合并、更多图表类型)