1.7K Star 科研党必备!PDFMathTranslate:精准翻译PDF,完美保留排版的开源神器。

1,385 阅读3分钟

我们经常需要将各种文档翻译成不同的语言。然而,对于包含复杂数学公式和特殊排版的PDF文档来说,传统的翻译工具往往显得力不从心。

特别对于科研党、考研党、以及经常阅读外文资料的小伙伴来说,翻译PDF的同时还能保留原有排版和 LaTeX 数学公式,无疑是一个梦寐以求的功能。

别担心,今天分享的这款开源项目: PDFMathTranslate ,能帮你完美解决这个问题!

图片


项目介绍

PDFMathTranslate 是一款在 GItHub 上开源的工具,它能够在保持原有格式与排版的基础上翻译 PDF 论文和电子书。

图片

它不仅能翻译 PDF 文档,还能保留原始排版,完整保存 LaTeX 数学公式、索引目录和图表样式。让译文 PDF 在内容和版式上与原文保持高度一致。

无论是科研论文还是电子书,这款工具都能轻松胜任!

PS:实质上还是一款命令行工具,不过也提供有Web页面操作。

核心功能亮点

1、排版与格式完整保留

  • 基于 AI 布局分析 和 PDF 指令流分析,让译文完美保留原始排版。

  • 优化 LaTeX 文献,行内公式和行间公式一律保留原样。

2、多翻译服务支持

  • 内置 Google 翻译、DeepL、Azure、OpenAI 和 Ollama 等翻译服务。

  • 可根据需求选择免费或付费引擎,支持最新的大语言模型翻译。

3、全文检索与批量处理

  • 支持全文翻译,也可指定页面范围进行部分翻译(例如 -p 1-3,5)。

  • 批量处理功能高效便捷,省时省力,一键搞定多份PDF文档。

4、可索引目录和图表样式保留

  • 索引目录结构不受影响,方便快速查阅文档内容。

  • 图表样式和嵌入内容完美复现,翻译不丢失信息。

5、图形界面模式

  • 为命令行工具提供本地网页 GUI,适合不习惯命令行的用户。

  • 使用命令 pdf2zh -i 启动图形界面,访问 http://127.0.0.1:7860/ 即可操作。

效果展示

图片

图片

图片

快速使用

安装方式

在支持 Python 的环境中运行以下命令:

pip install pdf2zh

注意:要求 Python 版本 >= 3.8,<= 3.12。

基本用法

① 翻译整个 PDF

pdf2zh example.pdf

② 翻译部分页面

pdf2zh example.pdf -p 1-3,5

③ 指定翻译引擎

比如使用 moonshot-v1-8k(Kimi) 模型翻译:

pdf2zh example.pdf -s openai:moonshot-v1-8k

④ 不喜欢命令行的小伙伴,也可以尝试GUI模式:

pdf2zh -i

启动后,它会打开一个本地网页 http://127.0.0.1:7860/ ,在浏览器中完成各种操作即可。

图片

适用场景

  •  论文翻译:特别是带大量数学公式的文献,还能输出高质量的翻译结果。

  •  考研与深造:快速翻译专业书籍,让外文资料不再是障碍。

  •  文档批量翻译:处理大量 PDF 文档时,批量翻译功能让工作事半功倍。

  •  开发者扩展:提供 API 接口,支持自定义开发和第三方集成。

项目动态

开发者 @Byaidu 积极听取用户建议,不断完善项目功能:

  •  新增第三方接口支持:根据用户反馈,开发者已增加更多翻译服务选项。

  •  优化使用说明:详细文档更新,降低上手难度。

图片

写在最后

目前,PDFMathTranslate 对图片型 PDF 的支持尚待优化,但在电子书和学术论文的翻译上已经表现十分出色。

PDFMathTranslate 对于翻译 PDF 文档的用户来说,无疑是个高效、实用且极具吸引力的工具。它不止翻译精准,还能保留排版与样式,特别适合学术研究、论文阅读和电子书翻译。

GitHub 项目地址:github.com/Byaidu/PDFM…