PaddleOCR-VL-1.5 与 PP-StructureV3 对比

0 阅读5分钟

同属PaddleOCR的产品,PaddleOCR-VL-1.5和PP-StructureV3到底有什么区别呢,什么时候用PaddleOCR-VL-1.5,什么时候用PP-StructureV3呢?

1. 先看飞桨官方怎么定义这两个方案

1.1 PaddleOCR-VL-1.5

根据飞桨官方 PaddleOCR-VL 使用文档和官方文档说明:

  • doc_parser 支持直接输入图片或 PDF。
  • 结果可以保存为 Markdown。

这意味着 PaddleOCR-VL-1.5 更像一条偏 VLM 的通用文档解析产线,不只是传统 OCR。

1.2 PP-StructureV3

根据飞桨官方 PP-StructureV3 说明和使用文档,它是一条通用文档解析产线,重点增强了:

  • 版面检测
  • 表格识别
  • 公式识别
  • 图表理解
  • 阅读顺序恢复
  • Markdown 转换

官方文档还明确说明:

  • 支持输出 json、可视化图片和 markdown
  • 支持按场景替换模块配置,做更轻量或更高精度的部署

这说明 PP-StructureV3 更像一条工程化的文档解析 pipeline。

官方资料:

2. 本地是怎么部署 PaddleOCR-VL-1.5 和PP-StructureV3

部署PP-StructureV3可以看另一篇文章:

PDF 转 Markdown 文档:用 PP-StructureV3 一键完成结构化转换

部署PaddleOCR-VL-1.5的步骤也可以参考上面,因为前面的安装部署是一样的:

2.1安装 PaddlePaddle(GPU 示例)

可以根据链接找到适合自己电脑的安装代码。开始使用_飞桨-源于产业实践的开源深度学习平台

值得一提的是,模型的缓存路径最好不要出现中文,否则会无法识别,导致出错。

 python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

2.2 安装 PaddleOCR

全量安装:

python -m pip install "paddleocr[all]"

如果你只关心文档解析能力,也可以只装对应依赖组:

python -m pip install -U "paddleocr[doc-parser]"

2.3 统一缓存目录

我使用的环境脚本会把以下目录全部固定到 D:\OCR\cache...:

同时额外设置:

$env:HF_HUB_DISABLE_XET = "1"

这样做的原因是,前面下载 PaddleOCR-VL-1.5 时,Hugging Face 的 Xet 分片下载在本机上出现过异常,禁用后更稳。

2.4 实际 smoke test 命令

本机验证时,实际使用的命令如下:

Set-ExecutionPolicy -Scope Process Bypass -Force
. D:\OCR\scripts\Set-OcrEnv.ps1
& D:\OCR\venvs\paddlevl\Scripts\Activate.ps1
$env:PADDLE_PDX_DISABLE_MODEL_SOURCE_CHECK='True'
paddleocr doc_parser -i D:\OCR\samples\smoke_input.png --save_path D:\OCR\logs\paddlevl_smoke --pipeline_version v1.5 --device gpu:0 --max_new_tokens 256

这里有两个关键点:

  • --pipeline_version v1.5 明确指定 PaddleOCR-VL-1.5
  • PADDLE_PDX_DISABLE_MODEL_SOURCE_CHECK=True 能减少本机环境下的兼容问题

2.5 为什么这套部署方式靠谱

因为它不是“装成功就算完成”,而是已经在本机做过真实 smoke test,且后续 benchmark 里也沿用了同一条官方 CLI 调用链路。

一句话概括,这次 PaddleOCR-VL-1.5 的部署逻辑就是:

  1. 用英文缓存目录避开中文路径问题

  2. 用独立虚拟环境隔离依赖

  3. 用官方 paddleocr doc_parser 入口跑通

  4. 再接进统一 benchmark pipeline

3. 这次 benchmark 的流程

这次对比不是全量长跑,而是本地 lite benchmark(在OmniDocBench和MDPBench里面分层抽样的样本集):

  • OmniDocBench Lite: 80 页
  • MDPBench Lite: 24 页

需要注意的是,这里的 rank_score 不是官方单一指标,而是本地为了便于排序做的聚合分数:

((1 - text_block) + (1 - reading_order) + table_teds + (1 - formula)) / 4

其中:

  • rank_score 越高越好,理论满分 1.0
  • text_block 越低越好,理想值 0.0
  • reading_order 越低越好,理想值 0.0
  • table_teds 越高越好,理想值 1.0
  • formula 越低越好,理想值 0.0

4. Lite 数据集实测对比

4.1 OmniDocBench Lite

模型Rank ScoreText BlockReading OrderTable TEDSFormula成功率平均单页耗时
PaddleOCR-VL-1.50.92740.04160.03610.90270.115580/8073.11s
PP-StructureV30.86100.11110.06960.82340.198880/8040.17s

4.2 MDPBench Lite

模型Rank ScoreText BlockReading OrderTable TEDSFormula成功率平均单页耗时
PaddleOCR-VL-1.50.76900.22480.16040.79880.337524/2435.39s
PP-StructureV30.67340.32780.15380.51420.339123/2437.04s

4.3 结论

从本次 lite benchmark 看:

  • PaddleOCR-VL-1.5 在两个数据集上都赢了
  • PP-StructureV3 在 OmniDocBench Lite 上速度明显更快
  • PP-StructureV3 在 MDPBench Lite 上阅读顺序略优一点,但表格能力差距比较明显
  • PaddleOCR-VL-1.5 的综合精度和跨场景稳定性更好

github.com/PrayerQX/do… 我把两个模型的代码和数据集都放在github里面了,你们也可以去试试,里面还包括了我测试的其它模型,其实在本次测试中,PaddleOCR-VL-1.5的数据综合位列第一。

5. 这两个方案分别有什么优缺点

5.1 PaddleOCR-VL-1.5

优点

  • 综合效果更强,这次两个 lite 数据集都领先
  • 文本块恢复最好,复杂页面内容还原更稳
  • 表格结构恢复明显更强
  • 公式恢复整体更稳
  • 在跨场景文档上泛化更好

缺点

  • 更吃资源
  • 在这台 1080 Ti 11GB 上明显更慢
  • 更像一条偏 VLM 的文档解析路线,部署和推理成本都更高

5.2 PP-StructureV3

优点

  • 更偏工程化 pipeline,结构化思路更清晰
  • 官方本身就支持 default / full / lightweight 多配置形态
  • 更容易根据硬件和场景做轻量化调节
  • 在本机 OmniDocBench Lite 上速度明显快于 PaddleOCR-VL-1.5
  • 对只需要文档结构解析、Markdown 导出和工程集成的场景比较友好

缺点

  • 本次 benchmark 中综合精度不如 PaddleOCR-VL-1.5
  • 表格指标差距较明显,尤其在 MDPBench Lite
  • 跨复杂场景时整体恢复质量仍弱一档
  • 这次 MDPBench Lite 有 1 页失败,不如 PaddleOCR-VL-1.5 全成功稳定

6. 更适合什么场景

6.1 更适合选 PaddleOCR-VL-1.5 的场景

  • 你最关心最终解析质量
  • 文档里表格、公式、复杂版面较多
  • 你想做更高质量的 PDF 转 Markdown
  • 你需要跨场景稳定性,而不是只在单一版式里表现好
  • 你在做 benchmark、评测、研究型项目

一句话概括:PaddleOCR-VL-1.5 更适合“效果优先”。

6.2 更适合选 PP-StructureV3 的场景

  • 你更关注工程落地而不是极限精度
  • 你希望用更明确的 pipeline 方式做二次集成
  • 你需要可调的轻量化配置
  • 你更看重解析速度和部署灵活性
  • 你的任务重点是版面解析、结构提取、Markdown 导出,而不是追求最强的表格和公式恢复

一句话概括:PP-StructureV3 更适合“工程优先”。

7. 最后怎么选

如果只给一个简单建议:

  • 要综合效果,优先选 PaddleOCR-VL-1.5
  • 要工程可控性、轻量化和更快的本地 pipeline,优先看 PP-StructureV3

如果你的任务是复杂文档高质量转写,我会更推荐 PaddleOCR-VL-1.5。 如果你的任务是生产环境里的结构化解析和工程接入,PP-StructureV3 往往更顺手。

8. 参考资料