❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- PDFMathTranslate 是一款开源的 PDF 文档翻译工具,支持科技论文等 PDF 文件的翻译,保留原文排版,包括公式和图表。
- 支持双语对照,保持原有目录结构,兼容多种翻译服务,如 Google、DeepL、Ollama 和 OpenAI 等。
- 可通过命令行工具进行操作,实现文档的快速翻译和双语对照查看。
正文(附运行示例)
PDFMathTranslate 是什么
PDFMathTranslate 是一款开源的 PDF 文档翻译工具,设计用于翻译科技论文等 PDF 文件。它能保留原文的排版,包括公式和图表,支持双语对照,保持原有目录结构,兼容多种翻译服务,如 Google、DeepL、Ollama 和 OpenAI 等。用户基于命令行工具操作,实现文档的快速翻译和双语对照查看。
PDFMathTranslate 的主要功能
- 保留原排版:PDFMathTranslate 能完整保留 PDF 文档中的公式、图表和目录结构,确保翻译后的文档与原文版式一致。
- 双语对照:支持生成双语对照文档,方便用户对照原文和译文。
- 全文翻译:提供全文翻译功能,用户可以选择翻译整个文档。
- 部分文档翻译:支持用户选择特定页面或章节进行翻译。
- 多种翻译服务支持:兼容 Google、DeepL、Ollama、OpenAI 等多种翻译服务,用户可以根据需求选择。
PDFMathTranslate 的技术原理
- 文档解析:使用 Pdfminer.six 等库解析 PDF 文档,提取文本、公式和图表。
- 布局分析:基于 DocLayout-YOLO 等技术进行布局分析,识别文档中的不同元素(如文本块、公式、图表)及其位置。
- 翻译服务接口:集成多种翻译服务 API,如 Google Cloud Translation、DeepL 等,实现文本的自动翻译。
- 多线程翻译:使用 MathTranslate 等工具进行多线程翻译,提高翻译效率。
如何运行 PDFMathTranslate
安装
要求 Python 版本 >=3.8, <=3.12
pip install pdf2zh
使用
命令行中执行翻译指令,在工作目录下生成翻译文档 example-zh.pdf
和双语对照文档 example-dual.pdf
,默认使用 Google 作为翻译服务。
翻译完整文档
pdf2zh example.pdf
翻译部分文档
pdf2zh example.pdf -p 1-3,5
使用指定语言翻译
参考 Google Languages Codes 和 DeepL Languages Codes
pdf2zh example.pdf -li en -lo ja
使用 DeepL/DeepLX 翻译
参考 DeepLX
设置环境变量构建接入点:{DEEPL_SERVER_URL}/{DEEPL_AUTH_KEY}/translate
DEEPL_SERVER_URL
(可选),例如:export DEEPL_SERVER_URL=https://api.deepl.com
DEEPL_AUTH_KEY
,例如:export DEEPL_AUTH_KEY=xxx
pdf2zh example.pdf -s deepl
使用 Ollama 翻译
参考 Ollama
设置环境变量构建接入点:{OLLAMA_HOST}/api/chat
OLLAMA_HOST
(可选),例如:export OLLAMA_HOST=https://localhost:11434
pdf2zh example.pdf -s ollama:gemma2
使用 OpenAI/SiliconCloud 翻译
参考 OpenAI
设置环境变量构建接入点:{OPENAI_BASE_URL}/chat/completions
OPENAI_BASE_URL
(可选),例如:export OPENAI_BASE_URL=https://api.openai.com/v1
OPENAI_API_KEY
,例如:export OPENAI_API_KEY=xxx
pdf2zh example.pdf -s openai:gpt-4o
使用正则表达式指定需要保留样式的字体和字符
pdf2zh example.pdf -f "(CM[^RT].*|MS.*|.*Ital)" -c "(\(|\||\)|\+|=|\d|[\u0080-\ufaff])"
资源
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦