PDF工具集：PyPDF / PyPDF2、PDFMiner.six、PyMuPDF（fitz）和 pdfplumber（v2+）

以下是对几个常用 Python PDF 处理库的详细中文对比，包括：PyPDF / PyPDF2、PDFMiner.six、PyMuPDF（fitz） 和 pdfplumber（v2+） ：

📚 1. PyPDF / PyPDF2（新版名为 PyPDF）

✅ 主要用途

PDF 操作修改：合并、拆分、旋转、加密、添加水印、提取文本（基本）

✅ 优点

纯 Python 编写，无需额外依赖
维护活跃，适合基础 PDF 操作任务
安装简单，API 易用

❌ 缺点

文本提取能力有限，对复杂结构支持不好
不具备页面布局、表格识别等高级功能

🧪 示例代码

from pypdf import PdfReader
reader = PdfReader("example.pdf")
text = ""
for page in reader.pages:
    text += page.extract_text()

📚 2. PDFMiner.six

✅ 主要用途

布局感知型文本提取，支持字体、坐标、编码等信息

✅ 优点

可精确获取文本位置
能用于构建基于坐标的定制解析逻辑（例如定位表格）

❌ 缺点

性能较慢，占用内存高
API 设计相对复杂，不够直观
多层对象抽象，调试成本高

🧪 示例代码

from pdfminer.high_level import extract_text
text = extract_text("example.pdf")

若需精细提取坐标和布局信息，需用 PDFPageAggregator、LTTextBox 等对象。

📚 3. PyMuPDF（又名 `fitz`）

✅ 主要用途

高性能的 PDF 渲染与解析工具（底层基于 MuPDF C++ 引擎）

✅ 优点

速度快，处理大文件也很稳定
可提取文本、图片、矢量图、字体、位置信息等
支持注释、书签、图像渲染等高级功能
可将页面渲染为图像（位图）

❌ 缺点

依赖 MuPDF 库（C++ 后端），不是纯 Python
获取布局数据相对繁琐，需阅读文档

🧪 示例代码

import fitz  # PyMuPDF
doc = fitz.open("example.pdf")
for page in doc:
    text = page.get_text()

获取词语与位置：

words = page.get_text("words")  # 每个词的(x0, y0, x1, y1, "word", block_no, line_no, word_no)

📚 4. pdfplumber（v2+）

✅ 主要用途

精确提取 结构化数据，尤其适用于表格、发票、报告等

✅ 优点

基于 pdfminer.six，但封装了更简洁的 API
提供 表格识别功能
支持文本坐标、行列、图像提取
使用简单，适合数据提取任务

❌ 缺点

性能比 PyMuPDF 略慢
只支持内容提取，不支持修改 PDF

🧪 示例代码

import pdfplumber
with pdfplumber.open("example.pdf") as pdf:
    page = pdf.pages[0]
    text = page.extract_text()
    table = page.extract_table()

你也可以访问 page.chars、page.lines、page.images 获得更底层的布局数据。

🧾 总体对比表

功能/库	PyPDF（PyPDF2）	PDFMiner.six	PyMuPDF（fitz）	pdfplumber
文本提取能力	基础	高级	高级	高级
表格提取	❌	手动实现	手动实现	✅ 内置
文本位置/坐标	❌	✅	✅	✅
PDF 操作（合并/加密）	✅	❌	❌	❌
处理速度	快	慢	✅ 非常快	一般
布局感知能力	❌	✅	✅	✅
页面渲染为图像	❌	❌	✅	❌
文件大小支持	好	差	非常好	中等
安装依赖	无	无	需 MuPDF C++	依赖 pdfminer

✅ 使用建议总结

使用场景	推荐库
🔧 合并/拆分/加密 PDF	`pypdf`
🧠 高质量文本 + 坐标提取	`pdfplumber`
⚡ 快速处理 + 渲染	`PyMuPDF`
🧭 自定义位置提取（复杂布局）	`PDFMiner.six`

PDF工具集：PyPDF / PyPDF2、PDFMiner.six、PyMuPDF（fitz） 和 pdfplumber（v2+）

📚 1. PyPDF / PyPDF2（新版名为 PyPDF）

✅ 主要用途

✅ 优点

❌ 缺点

🧪 示例代码

📚 2. PDFMiner.six

✅ 主要用途

✅ 优点

❌ 缺点

🧪 示例代码

📚 3. PyMuPDF（又名 fitz）

✅ 主要用途

✅ 优点

❌ 缺点

🧪 示例代码

📚 4. pdfplumber（v2+）

✅ 主要用途

✅ 优点

❌ 缺点

🧪 示例代码

🧾 总体对比表

✅ 使用建议总结

PDF工具集：PyPDF / PyPDF2、PDFMiner.six、PyMuPDF（fitz）和 pdfplumber（v2+）

📚 3. PyMuPDF（又名 `fitz`）