斩获 15K Star！让扫描件 PDF 可复制、搜索的开源神器今天推荐的开源项目：OCRmyPDF 专治各种"哑巴PD

翻开十年前的工作报告，面对泛黄的纸质合同，整理成摞的文献资料 - 这些场景总离不开扫描仪，将纸张材料转成 PDF 扫描件电子版。但生成的 PDF 文件像一张张定格照片，既不能复制文字，也无法搜索关键词。

今天推荐的开源项目：OCRmyPDF 专治各种"哑巴PDF"。它能精准识别扫描件中的文字，为图像 PDF 嵌入可检索的文本层。给扫描件装上"搜索引擎"，让扫描件 PDF 开口说话。

🚀 优势

市面常见的OCR工具往往把 PDF 转成 Word 或 TXT，破坏了原有排版。不同于普通 OCR 软件粗暴转换的做法，OCRmyPDF 像给文件装上透明文字层：打开处理后的 PDF，所有文字可随意复制，页面上的表格、图片位置分毫不差。

🌟 亮点

OCRmyPDF 是一个命令行工具，可以处理多种语言，并提供诸如页面旋转、图像去斜等功能。使用 Tesseract 引擎，支持超过 100 种语言，同时保持原始图片的分辨率不变。该工具能在不干扰其他内容的情况下无损插入 OCR 信息，并优化 PDF 文件大小，使其比原文件更小。

OCRmyPDF 还支持多核处理，能有效处理大批量的 PDF 文件。用户可以通过简单的命令行选项指定输入和输出文件类型，并控制生成 PDF/A 格式的可搜索文件。这个项目被广泛应用于需要处理大量扫描文档的用户，确保了良好的性能和稳定性。

💻如何使用

支持 Linux、Windows、macOS 和 FreeBSD。还提供适用于 x64 和 ARM 的 Docker 镜像。

开源地址：https://github.com/ocrmypdf/OCRmyPDF

OCRmyPDF 使用 Tesseract 进行 OCR，并依赖其语言包。

# 显示所有 Tesseract 语言包的列表
apt-cache search tesseract-ocr

# Debian/Ubuntu 用户
apt-get install tesseract-ocr-chi-sim # 示例：安装简体中文语言包

# Arch Linux 用户
pacman -S tesseract-data-eng tesseract-data-deu # 示例：安装英语和德语语言包

# brew macOS 用户
brew install tesseract-lang

体验使用 OCRmyPDF ：

# 添加OCR层并转换为PDF/A
ocrmypdf input.pdf output.pdf

# 将图像转换为单页PDF
ocrmypdf input.jpg output.pdf

# 在原文件上添加OCR（仅在成功时修改文件）
ocrmypdf myfile.pdf myfile.pdf

# 使用非英语语言进行OCR（查找您的语言的ISO 639-3代码）
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# 对多语言文档进行OCR
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# 校正（拉直倾斜的页面）ocrmypdf --deskew input.pdf output.pdf

关注我

每天推荐一个好玩的 GitHub 开源项目，给我发消息获取各种项目。这个公众号历史发布过很多有趣的开源项目，如果你懒得翻文章一个个找，你直接和逛逛 GitHub 对话聊天就行了：