离谱!我以为 OCR 还在一页页抠字,结果百度 1.2 万 Star Unlimited-OCR 直接把长文档一口气读完

0 阅读5分钟

嗨,我是小华同学,专注解锁高效工作与前沿AI工具!每日精选开源技术、实战技巧,助你省时50%、领先他人一步。👉免费订阅,与10万+技术人共享升级秘籍!

如果你还把 OCR 理解成“截张图、抠几个字”,那这次真的有点低估它了。

百度刚开源的 Unlimited-OCR,目标不是单页识别,而是把图片、长文档、多页 PDF 这一类“看得见但不好结构化”的资料,往 Markdown、表格、可检索文本 方向推进。

这篇不讲复杂论文公式,只用 3 分钟讲清:它为什么突然冲到 1.2 万 Star,以及程序员能拿它做什么。

官方截图:Unlimited-OCR 项目概览

这项目是什么

Unlimited-OCR 是百度开源的 OCR / 文档解析项目,项目标语很直接:Welcome the Era of One-shot Long-horizon Parsing

翻译成人话就是:它想解决的不只是“识别一张图里的文字”,而是更接近 一次处理更长、更复杂的视觉文档

它目前提供了几条开发者比较关心的入口:

能力项目里怎么体现对程序员的价值
单图解析Transformers 推理示例适合截图、票据、表单、扫描页
多页解析infer_multi 和多图输入适合多页文档、长材料拆页处理
PDF 路径PDF 先转图片,再进入多页解析适合接入已有文档流
服务化vLLM / SGLang 支持方便做 API、批量任务、内部工具
输出方向Markdown、文本、表格等结构化结果更容易接 RAG、搜索、归档和自动化

注意,这里最关键的不是“它也能 OCR”,而是 OCR 正在从工具函数,变成文档理解流水线的一部分

白板定位对比图:普通 OCR 到长文档解析

为什么值得关注

很多团队其实都被“文档非结构化”卡过。

合同是 PDF,发票是图片,供应商报价是扫描件,历史资料是截图,表格嵌在报告里。你想让 AI 分析它,第一步往往不是写 Prompt,而是先把这些东西变成模型能吃的文本。

传统 OCR 当然能用,但经常会遇到几个问题:

第一,单页还行,长文档容易散。
页与页之间的上下文、表格结构、标题层级,一旦断开,后续做检索和问答就很麻烦。

第二,纯文本不够,结构更重要。
程序员真正想要的不是一坨字,而是 Markdown、表格、段落、字段,这样才能继续进数据库、知识库或者 Agent 工作流。

第三,批量化和服务化是刚需。
项目里已经给出 Transformers、vLLM、SGLang 的路线,这意味着它不是只停留在 Demo 截图,而是在往可接入工程链路的方向走。

能用来做什么

如果你做过企业系统、知识库、RPA、AI Agent 或数据中台,这类项目的想象空间会非常直接。

你可以把它理解成一个“文档入口层”:

趣味白板流程图:Unlimited-OCR 接入开发者流水线

几个比较实在的方向:

1. 给 RAG 做文档预处理
把扫描 PDF、图片报告、表格页面先转成更干净的 Markdown,再进入切分、向量化和检索。

2. 做内部资料归档
历史合同、培训材料、会议截图、票据凭证,可以先批量解析,再统一搜索。

3. 给业务系统补一个“看图录入”能力
比如表单录入、发票字段提取、报价单整理、客服截图整理,减少人工复制粘贴。

4. 给 Agent 加一双“读文档的眼睛”
很多 Agent 卡住,不是推理不行,而是看不到 PDF 和图片里的信息。OCR + 文档解析就是前置基础设施。

小白怎么理解

你可以把普通 OCR 想成一个很勤奋的打字员:你给它一张图,它把字敲出来。

而 Unlimited-OCR 更像一个升级版资料助理:它不只盯着一小块文字,而是尝试理解更长的页面、更复杂的排版,并把结果整理成后续程序更好处理的格式。

这也是为什么我觉得它适合收藏:它不一定马上替代你现有 OCR,但它代表了 OCR 的下一步方向。

但别无脑上

这类项目目前仍然有边界。

它不是万能文档大脑,也不是“丢任何 PDF 都 100% 正确”的魔法工具。项目 README 里给的 PDF 路径,本质上还是 先把 PDF 页面转成图片,再做多页解析;复杂表格、低清扫描、手写混排、极长文档,仍然需要测试和人工校验。

另外,它对 GPU、推理框架和依赖环境也有要求。比如 README 中 Transformers 示例测试在 Python 3.12.3 + CUDA 12.9,服务化路线还涉及 vLLM 或 SGLang。

所以更合理的期待是:先把它当成“文档解析基础组件”评估,而不是马上当成生产级万金油。

我的判断

Unlimited-OCR 火得快,核心不是因为“百度又开源了一个 OCR”,而是它踩中了一个越来越明显的趋势:

AI 应用越往企业和真实业务走,越需要把图片、PDF、表格、扫描件这些非结构化资料,稳定地变成可计算的数据。

这就是它对程序员的价值。

如果你最近在做知识库、企业搜索、Agent 自动化、文档审查、票据识别,这个项目值得先收藏。后面我也可以继续拆它的推理方式、部署链路,以及怎么接到自己的 RAG / Agent 项目里。

项目地址

GitHub:github.com/baidu/Unlim…

Hugging Face Model:huggingface.co/baidu/Unlim…

arXiv:arxiv.org/abs/2606.23…