开源69.9k星标,国产OCR杀进全球第一梯队,全新升级,文档再歪再糊也不怕(附源码)

107 阅读5分钟

大家好,我是小悟。

最近,百度飞桨团队把新一代文档解析模型 PaddleOCR-VL-1.5 开源了,开源Star已获69.9k。

图片

说实话哈,这两年“大模型”三个字到处都能听见,但真正有用处的,是这种扎扎实实解决具体问题的工具。

尤其当你被各种“歪、斜、糊、折”的文档折磨过,就知道一个靠谱的 OCR 有多重要。

😫 真实场景的痛点

先说说我自己的真实感受。

你拍一张发票,角度稍微偏一点,表格线就歪成波浪。扫描一份合同,边角折一下,整段文字就错位。翻拍 PPT,投影仪的阴影一挡,识别结果直接乱成一锅粥。

传统 OCR 在“干净”的测试集上跑分很高,但一到真实业务里,就各种掉链子。表格线对不上、阅读顺序乱跳、公式变成一堆乱码。

这就是我特别觉得 PaddleOCR-VL-1.5 好的原因:它能够在真实、混乱的场景里,把 OCR 往靠谱的方向又推了一把。

🤔 PaddleOCR-VL-1.5 是什么?

简单来说,它是百度飞桨团队开源的一款多模态文档解析模型,核心特点就三个字:小、准、全。

小:模型参数只有 0.9B,属于“小钢炮”级别,但能力一点不弱。

准:在全球权威文档解析评测 OmniDocBench v1.5 上,综合精度干到了 94.5%,超过了多款主流模型。

图片

全:不仅能识别文字,还能处理表格、公式、图表、印章,甚至能理解文档的阅读顺序。

它延续了 PaddleOCR-VL 的架构,视觉部分用 NaViT,语言部分基于 ERNIE-4.5-0.3B,组合起来专门干一件事:把各种文档变成结构化的数据。

✨ 核心功能亮点

这次 1.5 版本,有几个升级让我印象很深:

“异形框定位”,专治歪七扭八

以前 OCR 框出来的都是规规矩矩的矩形,稍微歪一点就废了。现在它能按内容轮廓,直接给你一个多边形框,完美贴合倾斜、弯曲的文本区域。

扫描、弯折、屏幕翻拍这些“脏数据”,简单说,就是你随便拍,它尽量帮你还原。

多任务一体化,告别“模型堆砌”

以前想做个文档解析系统,得搭一堆模型:一个识别文字,一个识别表格,一个处理公式……现在 PaddleOCR-VL-1.5 一个模型全包了:

OCR(普通文本)

图片

Table Recognition(表格识别)

图片

Formula Recognition(公式识别)

图片

Chart Recognition(图表解析)

图片

Seal Recognition(印章识别)

图片

Text Spotting(文本行级定位+识别)

图片

对于开发者来说,维护成本直接砍掉一大截。

长文档处理,不再“断章取义”

处理几十上百页的 PDF 时,最烦的就是跨页表格断开、标题对不上。1.5 版本支持跨页表格自动合并和跨页段落标题识别,长文档解析的连贯性好了很多。

多语种 & 复杂结构优化

支持100多语种,对生僻字、古籍、多语种表格、下划线和复选框等复杂结构做了专项优化。如果你经常处理多语言文档或扫描件,这点会很实用。

性能与部署友好

支持 vLLM 推理,吞吐能再提 3-5 倍。同时兼容 HuggingFace Transformers,也支持 Ascend NPU、Kunlun XPU 等国产芯片,对国内用户很友好。

🚀 上手体验如何?

安装过程很常规,pip 一下就行。命令行一条命令,就能把图片解析成 Markdown,表格、标题层级都保留得很好。

用 Python API 调用也简单,初始化模型后,predict 一下就能拿到结构化结果,支持保存成 JSON、Markdown 等格式。

本地安装

安装PaddlePaddle
执行以下命令安装:
python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

然后安装paddleocr
# 只希望使用基础文字识别功能(返回文字位置坐标和文本内容),包含 PP-OCR 系列
python -m pip install paddleocr
# 希望使用文档解析、文档理解、文档翻译、关键信息抽取等全部功能
# python -m pip install "paddleocr[all]"

API方式推理
from paddleocr import PaddleOCR
# 初始化 PaddleOCR 实例
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False)

# 对示例图像执行 OCR 推理 
result = ocr.predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

# 可视化结果并保存 json 结果
for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

开源社区

在线使用/API:https://www.paddleocr.com 开源项目地址:https://github.com/PaddlePaddle/PaddleOCR 模型地址:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5 

当然,它也不是完美的。极端模糊、严重遮挡或者手写体特别潦草的情况下,还是会出错。但和以前用过的工具比,已经省了太多校对时间。

👍 为什么推荐它?

推荐 PaddleOCR-VL-1.5,不是因为它榜单分数多高,而是它解决了真实场景里的“脏活累活”。

对个人用户

如果你是学生、科研人员,或者经常和 PDF、扫描件打交道,它能帮你把大量时间从“敲键盘”里解放出来。

论文、笔记、合同,拍一拍就能变成可编辑、可搜索的结构化数据。

对开发者

它开源、模型小、能力强,支持多硬件部署,还能和 RAG、Agent 等系统无缝集成。

无论是做知识库、智能客服,还是财务报销、档案数字化,都能快速搭建一个靠谱的文档处理链路。

对AI生态

看到国产模型在 OCR 这种基础能力上做到全球领先,说实话,是有点骄傲的。

它让我们不用再完全依赖国外的 API,也为国内开发者提供了一个稳定、可控的选择。

🎯 最后

这两年大家都在追“大模型”,但真正能改变日常工作的,往往是这些扎扎实实的“小工具”。

PaddleOCR-VL-1.5 就是这样一个存在,能真真切切地帮你省时间、省力气。

图片

谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海