【GitHub每日速递 20260409】免费试用！OCR界新标杆Chandra 2登顶基准榜，90+语言通吃，数学/表格/手写精准转结构化内容

免费试用！OCR界新标杆Chandra 2登顶基准榜，90+语言通吃，数学/表格/手写精准转结构化内容

chandra 是一个基于Python的自动化数据科学实验平台。简单讲，它能自动完成数据分析、建模和调参过程，帮助用户快速构建高质量的数据科学模型。适用人群：数据科学家、机器学习工程师及AI研究人员。

项目地址：github.com/datalab-to/…

主要语言：Python

stars: 6.0k

仓库核心功能

Chandra OCR 2 是一款先进的 OCR 模型，能够将图像和 PDF 文件转换为结构化的 HTML、Markdown 或 JSON 格式，同时保留文档的布局信息。

主要优势

性能卓越：在外部 olmocr 基准测试中名列前茅，在内部多语言基准测试中也有显著提升。
多语言支持：支持 90 多种语言，满足不同语言环境下的文档处理需求。
功能丰富：对表格、数学公式和复杂布局的处理能力强；具备出色的手写识别能力，能准确重建表单（包括复选框）；可提取图像和图表，并添加标题和结构化数据。
灵活的推理模式：提供本地（HuggingFace）和远程（vLLM 服务器）两种推理模式。

应用场景

学术研究：处理学术文献、教材等，将其中的数学公式、图表等准确转换为可编辑的格式，方便研究和引用。
商业办公：处理合同、报表、表单等文档，提高文档处理效率，减少人工录入的工作量。
档案管理：对历史档案进行数字化处理，将纸质档案转换为电子文档，便于存储和检索。

快速开始

可以使用 CLI 工具快速开始使用：

pip install chandra-ocr

# With vLLM (recommended, lightweight install)
chandra_vllm
chandra input.pdf ./output

# With HuggingFace (requires torch)
pip install chandra-ocr[hf]
chandra input.pdf ./output --method hf

# Interactive streamlit app
pip install chandra-ocr[app]
chandra_app

安装方式

通过包安装：

# Base install (for vLLM backend)
pip install chandra-ocr

# With HuggingFace backend (includes torch, transformers)
pip install chandra-ocr[hf]

# With all extras
pip install chandra-ocr[all]

使用 HuggingFace 方法时，建议安装 flash attention 以获得更好的性能。

从源代码安装：

git clone https://github.com/datalab-to/chandra.git
cd chandra
uv sync
source .venv/bin/activate

基准测试

多语言基准测试：自制了多语言 OCR 基准测试，测试涵盖表格、数学公式、顺序、布局和文本准确性等方面。Chandra 2 在多语言处理上表现出色。
olmocr 基准测试：与广泛认可的 olmocr 基准进行对比，Chandra 2 取得了优异的成绩。

商业使用

代码遵循 Apache 2.0 许可，模型权重使用修改后的 OpenRAIL - M 许可（免费用于研究、个人使用和资金/收入低于 200 万美元的初创公司，不能与官方 API 竞争使用）。如需去除 OpenRAIL 许可限制或进行更广泛的商业授权，可访问定价页面。

吞吐量

在单块 NVIDIA H100 80GB GPU 上使用 vLLM 对来自 olmOCR 基准集的多样化文档（数学、表格、扫描件、多列布局）进行基准测试。该测试集的处理速度比实际使用慢，估计实际使用中可达 2 页/秒。

原文：mp.weixin.qq.com/s/owQqUHJuB…

欢迎关注公zh：AI Tech研习社

关注公zh，后台回复【OpenClaw完全使用手册】，领取OpenClaw完全使用手册.pdf学习资料，更多学习资源敬请期待。