【GitHub每日速递 20260409】免费试用!OCR界新标杆Chandra 2登顶基准榜,90+语言通吃,数学/表格/手写精准转结构化内容

0 阅读3分钟

免费试用!OCR界新标杆Chandra 2登顶基准榜,90+语言通吃,数学/表格/手写精准转结构化内容

chandra 是一个基于Python的自动化数据科学实验平台。简单讲,它能自动完成数据分析、建模和调参过程,帮助用户快速构建高质量的数据科学模型。适用人群:数据科学家、机器学习工程师及AI研究人员。

项目地址:github.com/datalab-to/…

主要语言:Python

stars: 6.0k

1

仓库核心功能

Chandra OCR 2 是一款先进的 OCR 模型,能够将图像和 PDF 文件转换为结构化的 HTML、Markdown 或 JSON 格式,同时保留文档的布局信息。

主要优势

  • 性能卓越:在外部 olmocr 基准测试中名列前茅,在内部多语言基准测试中也有显著提升。
  • 多语言支持:支持 90 多种语言,满足不同语言环境下的文档处理需求。
  • 功能丰富:对表格、数学公式和复杂布局的处理能力强;具备出色的手写识别能力,能准确重建表单(包括复选框);可提取图像和图表,并添加标题和结构化数据。
  • 灵活的推理模式:提供本地(HuggingFace)和远程(vLLM 服务器)两种推理模式。

应用场景

  • 学术研究:处理学术文献、教材等,将其中的数学公式、图表等准确转换为可编辑的格式,方便研究和引用。
  • 商业办公:处理合同、报表、表单等文档,提高文档处理效率,减少人工录入的工作量。
  • 档案管理:对历史档案进行数字化处理,将纸质档案转换为电子文档,便于存储和检索。

快速开始

可以使用 CLI 工具快速开始使用:

pip install chandra-ocr

# With vLLM (recommended, lightweight install)
chandra_vllm
chandra input.pdf ./output

# With HuggingFace (requires torch)
pip install chandra-ocr[hf]
chandra input.pdf ./output --method hf

# Interactive streamlit app
pip install chandra-ocr[app]
chandra_app

安装方式

  • 通过包安装
# Base install (for vLLM backend)
pip install chandra-ocr

# With HuggingFace backend (includes torch, transformers)
pip install chandra-ocr[hf]

# With all extras
pip install chandra-ocr[all]

使用 HuggingFace 方法时,建议安装 flash attention 以获得更好的性能。

  • 从源代码安装
git clone https://github.com/datalab-to/chandra.git
cd chandra
uv sync
source .venv/bin/activate

基准测试

  • 多语言基准测试:自制了多语言 OCR 基准测试,测试涵盖表格、数学公式、顺序、布局和文本准确性等方面。Chandra 2 在多语言处理上表现出色。
  • olmocr 基准测试:与广泛认可的 olmocr 基准进行对比,Chandra 2 取得了优异的成绩。

商业使用

代码遵循 Apache 2.0 许可,模型权重使用修改后的 OpenRAIL - M 许可(免费用于研究、个人使用和资金/收入低于 200 万美元的初创公司,不能与官方 API 竞争使用)。如需去除 OpenRAIL 许可限制或进行更广泛的商业授权,可访问定价页面

吞吐量

在单块 NVIDIA H100 80GB GPU 上使用 vLLM 对来自 olmOCR 基准集的多样化文档(数学、表格、扫描件、多列布局)进行基准测试。该测试集的处理速度比实际使用慢,估计实际使用中可达 2 页/秒。

原文:mp.weixin.qq.com/s/owQqUHJuB…

欢迎关注公zh:AI Tech研习社

关注公zh,后台回复【OpenClaw完全使用手册】,领取OpenClaw完全使用手册.pdf学习资料,更多学习资源敬请期待。