开源69.9k星标，国产OCR杀进全球第一梯队，全新升级，文档再歪再糊也不怕（附源码）最近，百度飞桨团队把新一代文档解析

大家好，我是小悟。

最近，百度飞桨团队把新一代文档解析模型 PaddleOCR-VL-1.5 开源了，开源Star已获69.9k。

说实话哈，这两年“大模型”三个字到处都能听见，但真正有用处的，是这种扎扎实实解决具体问题的工具。

尤其当你被各种“歪、斜、糊、折”的文档折磨过，就知道一个靠谱的 OCR 有多重要。

😫 真实场景的痛点

先说说我自己的真实感受。

你拍一张发票，角度稍微偏一点，表格线就歪成波浪。扫描一份合同，边角折一下，整段文字就错位。翻拍 PPT，投影仪的阴影一挡，识别结果直接乱成一锅粥。

传统 OCR 在“干净”的测试集上跑分很高，但一到真实业务里，就各种掉链子。表格线对不上、阅读顺序乱跳、公式变成一堆乱码。

这就是我特别觉得 PaddleOCR-VL-1.5 好的原因：它能够在真实、混乱的场景里，把 OCR 往靠谱的方向又推了一把。

🤔 PaddleOCR-VL-1.5 是什么？

简单来说，它是百度飞桨团队开源的一款多模态文档解析模型，核心特点就三个字：小、准、全。

小：模型参数只有 0.9B，属于“小钢炮”级别，但能力一点不弱。

准：在全球权威文档解析评测 OmniDocBench v1.5 上，综合精度干到了 94.5%，超过了多款主流模型。

全：不仅能识别文字，还能处理表格、公式、图表、印章，甚至能理解文档的阅读顺序。

它延续了 PaddleOCR-VL 的架构，视觉部分用 NaViT，语言部分基于 ERNIE-4.5-0.3B，组合起来专门干一件事：把各种文档变成结构化的数据。

✨ 核心功能亮点

这次 1.5 版本，有几个升级让我印象很深：

“异形框定位”，专治歪七扭八

以前 OCR 框出来的都是规规矩矩的矩形，稍微歪一点就废了。现在它能按内容轮廓，直接给你一个多边形框，完美贴合倾斜、弯曲的文本区域。

扫描、弯折、屏幕翻拍这些“脏数据”，简单说，就是你随便拍，它尽量帮你还原。

多任务一体化，告别“模型堆砌”

以前想做个文档解析系统，得搭一堆模型：一个识别文字，一个识别表格，一个处理公式……现在 PaddleOCR-VL-1.5 一个模型全包了：

OCR（普通文本）

Table Recognition（表格识别）

Formula Recognition（公式识别）

Chart Recognition（图表解析）

Seal Recognition（印章识别）

Text Spotting（文本行级定位+识别）

对于开发者来说，维护成本直接砍掉一大截。

长文档处理，不再“断章取义”

处理几十上百页的 PDF 时，最烦的就是跨页表格断开、标题对不上。1.5 版本支持跨页表格自动合并和跨页段落标题识别，长文档解析的连贯性好了很多。

多语种 & 复杂结构优化

支持100多语种，对生僻字、古籍、多语种表格、下划线和复选框等复杂结构做了专项优化。如果你经常处理多语言文档或扫描件，这点会很实用。

性能与部署友好

支持 vLLM 推理，吞吐能再提 3-5 倍。同时兼容 HuggingFace Transformers，也支持 Ascend NPU、Kunlun XPU 等国产芯片，对国内用户很友好。

🚀 上手体验如何？

安装过程很常规，pip 一下就行。命令行一条命令，就能把图片解析成 Markdown，表格、标题层级都保留得很好。

用 Python API 调用也简单，初始化模型后，predict 一下就能拿到结构化结果，支持保存成 JSON、Markdown 等格式。

本地安装

安装PaddlePaddle
执行以下命令安装：
python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

然后安装paddleocr
# 只希望使用基础文字识别功能（返回文字位置坐标和文本内容），包含 PP-OCR 系列
python -m pip install paddleocr
# 希望使用文档解析、文档理解、文档翻译、关键信息抽取等全部功能
# python -m pip install "paddleocr[all]"

API方式推理
from paddleocr import PaddleOCR
# 初始化 PaddleOCR 实例
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False)

# 对示例图像执行 OCR 推理 
result = ocr.predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

# 可视化结果并保存 json 结果
for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

开源社区

在线使用/API：https://www.paddleocr.com 开源项目地址：https://github.com/PaddlePaddle/PaddleOCR 模型地址：https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

当然，它也不是完美的。极端模糊、严重遮挡或者手写体特别潦草的情况下，还是会出错。但和以前用过的工具比，已经省了太多校对时间。

👍 为什么推荐它？

推荐 PaddleOCR-VL-1.5，不是因为它榜单分数多高，而是它解决了真实场景里的“脏活累活”。

对个人用户

如果你是学生、科研人员，或者经常和 PDF、扫描件打交道，它能帮你把大量时间从“敲键盘”里解放出来。

论文、笔记、合同，拍一拍就能变成可编辑、可搜索的结构化数据。

对开发者

它开源、模型小、能力强，支持多硬件部署，还能和 RAG、Agent 等系统无缝集成。

无论是做知识库、智能客服，还是财务报销、档案数字化，都能快速搭建一个靠谱的文档处理链路。

对AI生态

看到国产模型在 OCR 这种基础能力上做到全球领先，说实话，是有点骄傲的。

它让我们不用再完全依赖国外的 API，也为国内开发者提供了一个稳定、可控的选择。

🎯 最后

这两年大家都在追“大模型”，但真正能改变日常工作的，往往是这些扎扎实实的“小工具”。

PaddleOCR-VL-1.5 就是这样一个存在，能真真切切地帮你省时间、省力气。

谢谢你看我的文章，既然看到这里了，如果觉得不错，随手点个赞、转发、在看三连吧，感谢感谢。那我们，下次再见。

您的一键三连，是我更新的最大动力，谢谢

山水有相逢，来日皆可期，谢谢阅读，我们再会

我手中的金箍棒，上能通天，下能探海