斩获 15K Star!让扫描件 PDF 可复制、搜索的开源神器

1,035 阅读2分钟

图片

翻开十年前的工作报告,面对泛黄的纸质合同,整理成摞的文献资料 - 这些场景总离不开扫描仪,将纸张材料转成 PDF 扫描件电子版。但生成的 PDF 文件像一张张定格照片,既不能复制文字,也无法搜索关键词。

图片

今天推荐的开源项目:OCRmyPDF 专治各种"哑巴PDF"。它能精准识别扫描件中的文字,为图像 PDF 嵌入可检索的文本层。给扫描件装上"搜索引擎",让扫描件 PDF 开口说话。

🚀 优势

市面常见的OCR工具往往把 PDF 转成 Word 或 TXT,破坏了原有排版。不同于普通 OCR 软件粗暴转换的做法,OCRmyPDF 像给文件装上透明文字层:打开处理后的 PDF,所有文字可随意复制,页面上的表格、图片位置分毫不差。

图片

🌟 亮点

OCRmyPDF 是一个命令行工具,可以处理多种语言,并提供诸如页面旋转、图像去斜等功能。使用 Tesseract 引擎,支持超过 100 种语言,同时保持原始图片的分辨率不变。该工具能在不干扰其他内容的情况下无损插入 OCR 信息,并优化 PDF 文件大小,使其比原文件更小。

OCRmyPDF 还支持多核处理,能有效处理大批量的 PDF 文件。用户可以通过简单的命令行选项指定输入和输出文件类型,并控制生成 PDF/A 格式的可搜索文件。这个项目被广泛应用于需要处理大量扫描文档的用户,确保了良好的性能和稳定性。

💻如何使用

支持 Linux、Windows、macOS 和 FreeBSD。还提供适用于 x64 和 ARM 的 Docker 镜像。

图片

开源地址:https://github.com/ocrmypdf/OCRmyPDF

OCRmyPDF 使用 Tesseract 进行 OCR,并依赖其语言包。

# 显示所有 Tesseract 语言包的列表
apt-cache search tesseract-ocr

# Debian/Ubuntu 用户
apt-get install tesseract-ocr-chi-sim # 示例:安装简体中文语言包

# Arch Linux 用户
pacman -S tesseract-data-eng tesseract-data-deu # 示例:安装英语和德语语言包

# brew macOS 用户
brew install tesseract-lang

体验使用 OCRmyPDF :

# 添加OCR层并转换为PDF/A
ocrmypdf input.pdf output.pdf

# 将图像转换为单页PDF
ocrmypdf input.jpg output.pdf

# 在原文件上添加OCR(仅在成功时修改文件)
ocrmypdf myfile.pdf myfile.pdf

# 使用非英语语言进行OCR(查找您的语言的ISO 639-3代码)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# 对多语言文档进行OCR
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# 校正(拉直倾斜的页面)ocrmypdf --deskew input.pdf output.pdf

关注我

每天推荐一个好玩的 GitHub 开源项目,给我发消息获取各种项目。这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接和逛逛 GitHub 对话聊天就行了:

图片