PaddleOCR-VL-1.5 与 PP-StructureV3 对比同属PaddleOCR的产品，PaddleOCR

同属PaddleOCR的产品，PaddleOCR-VL-1.5和PP-StructureV3到底有什么区别呢，什么时候用PaddleOCR-VL-1.5，什么时候用PP-StructureV3呢？

1. 先看飞桨官方怎么定义这两个方案

1.1 PaddleOCR-VL-1.5

根据飞桨官方 PaddleOCR-VL 使用文档和官方文档说明：

doc_parser 支持直接输入图片或 PDF。
结果可以保存为 Markdown。

这意味着 PaddleOCR-VL-1.5 更像一条偏 VLM 的通用文档解析产线，不只是传统 OCR。

1.2 PP-StructureV3

根据飞桨官方 PP-StructureV3 说明和使用文档，它是一条通用文档解析产线，重点增强了：

版面检测
表格识别
公式识别
图表理解
阅读顺序恢复
Markdown 转换

官方文档还明确说明：

支持输出 json、可视化图片和 markdown
支持按场景替换模块配置，做更轻量或更高精度的部署

这说明 PP-StructureV3 更像一条工程化的文档解析 pipeline。

官方资料：

PP-StructureV3 使用教程: 使用教程 - PaddleOCR 文档
PP-StructureV3 简介: PP-StructureV3简介 - PaddleOCR 文档

2. 本地是怎么部署 PaddleOCR-VL-1.5 和PP-StructureV3

部署PP-StructureV3可以看另一篇文章：

PDF 转 Markdown 文档：用 PP-StructureV3 一键完成结构化转换

部署PaddleOCR-VL-1.5的步骤也可以参考上面，因为前面的安装部署是一样的：

2.1安装 PaddlePaddle（GPU 示例）

可以根据链接找到适合自己电脑的安装代码。开始使用_飞桨-源于产业实践的开源深度学习平台

值得一提的是，模型的缓存路径最好不要出现中文，否则会无法识别，导致出错。

 python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

2.2 安装 PaddleOCR

全量安装：

python -m pip install "paddleocr[all]"

如果你只关心文档解析能力，也可以只装对应依赖组：

python -m pip install -U "paddleocr[doc-parser]"

2.3 统一缓存目录

我使用的环境脚本会把以下目录全部固定到 D:\OCR\cache...：

同时额外设置：

$env:HF_HUB_DISABLE_XET = "1"

这样做的原因是，前面下载 PaddleOCR-VL-1.5 时，Hugging Face 的 Xet 分片下载在本机上出现过异常，禁用后更稳。

2.4 实际 smoke test 命令

本机验证时，实际使用的命令如下：

Set-ExecutionPolicy -Scope Process Bypass -Force
. D:\OCR\scripts\Set-OcrEnv.ps1
& D:\OCR\venvs\paddlevl\Scripts\Activate.ps1
$env:PADDLE_PDX_DISABLE_MODEL_SOURCE_CHECK='True'
paddleocr doc_parser -i D:\OCR\samples\smoke_input.png --save_path D:\OCR\logs\paddlevl_smoke --pipeline_version v1.5 --device gpu:0 --max_new_tokens 256

这里有两个关键点：

--pipeline_version v1.5 明确指定 PaddleOCR-VL-1.5
PADDLE_PDX_DISABLE_MODEL_SOURCE_CHECK=True 能减少本机环境下的兼容问题

2.5 为什么这套部署方式靠谱

因为它不是“装成功就算完成”，而是已经在本机做过真实 smoke test，且后续 benchmark 里也沿用了同一条官方 CLI 调用链路。

一句话概括，这次 PaddleOCR-VL-1.5 的部署逻辑就是：

用英文缓存目录避开中文路径问题
用独立虚拟环境隔离依赖
用官方 paddleocr doc_parser 入口跑通
再接进统一 benchmark pipeline

3. 这次 benchmark 的流程

这次对比不是全量长跑，而是本地 lite benchmark（在OmniDocBench和MDPBench里面分层抽样的样本集）：

OmniDocBench Lite: 80 页
MDPBench Lite: 24 页

需要注意的是，这里的 rank_score 不是官方单一指标，而是本地为了便于排序做的聚合分数：

((1 - text_block) + (1 - reading_order) + table_teds + (1 - formula)) / 4

其中：

rank_score 越高越好，理论满分 1.0
text_block 越低越好，理想值 0.0
reading_order 越低越好，理想值 0.0
table_teds 越高越好，理想值 1.0
formula 越低越好，理想值 0.0

4. Lite 数据集实测对比

4.1 OmniDocBench Lite

模型	Rank Score	Text Block	Reading Order	Table TEDS	Formula	成功率	平均单页耗时
PaddleOCR-VL-1.5	0.9274	0.0416	0.0361	0.9027	0.1155	80/80	73.11s
PP-StructureV3	0.8610	0.1111	0.0696	0.8234	0.1988	80/80	40.17s

4.2 MDPBench Lite

模型	Rank Score	Text Block	Reading Order	Table TEDS	Formula	成功率	平均单页耗时
PaddleOCR-VL-1.5	0.7690	0.2248	0.1604	0.7988	0.3375	24/24	35.39s
PP-StructureV3	0.6734	0.3278	0.1538	0.5142	0.3391	23/24	37.04s

4.3 结论

从本次 lite benchmark 看：

PaddleOCR-VL-1.5 在两个数据集上都赢了
PP-StructureV3 在 OmniDocBench Lite 上速度明显更快
PP-StructureV3 在 MDPBench Lite 上阅读顺序略优一点，但表格能力差距比较明显
PaddleOCR-VL-1.5 的综合精度和跨场景稳定性更好

github.com/PrayerQX/do… 我把两个模型的代码和数据集都放在github里面了，你们也可以去试试，里面还包括了我测试的其它模型，其实在本次测试中，PaddleOCR-VL-1.5的数据综合位列第一。

5. 这两个方案分别有什么优缺点

5.1 PaddleOCR-VL-1.5

优点

综合效果更强，这次两个 lite 数据集都领先
文本块恢复最好，复杂页面内容还原更稳
表格结构恢复明显更强
公式恢复整体更稳
在跨场景文档上泛化更好

缺点

更吃资源
在这台 1080 Ti 11GB 上明显更慢
更像一条偏 VLM 的文档解析路线，部署和推理成本都更高

5.2 PP-StructureV3

优点

更偏工程化 pipeline，结构化思路更清晰
官方本身就支持 default / full / lightweight 多配置形态
更容易根据硬件和场景做轻量化调节
在本机 OmniDocBench Lite 上速度明显快于 PaddleOCR-VL-1.5
对只需要文档结构解析、Markdown 导出和工程集成的场景比较友好

缺点

本次 benchmark 中综合精度不如 PaddleOCR-VL-1.5
表格指标差距较明显，尤其在 MDPBench Lite
跨复杂场景时整体恢复质量仍弱一档
这次 MDPBench Lite 有 1 页失败，不如 PaddleOCR-VL-1.5 全成功稳定

6. 更适合什么场景

6.1 更适合选 PaddleOCR-VL-1.5 的场景

你最关心最终解析质量
文档里表格、公式、复杂版面较多
你想做更高质量的 PDF 转 Markdown
你需要跨场景稳定性，而不是只在单一版式里表现好
你在做 benchmark、评测、研究型项目

一句话概括：PaddleOCR-VL-1.5 更适合“效果优先”。

6.2 更适合选 PP-StructureV3 的场景

你更关注工程落地而不是极限精度
你希望用更明确的 pipeline 方式做二次集成
你需要可调的轻量化配置
你更看重解析速度和部署灵活性
你的任务重点是版面解析、结构提取、Markdown 导出，而不是追求最强的表格和公式恢复

一句话概括：PP-StructureV3 更适合“工程优先”。

7. 最后怎么选

如果只给一个简单建议：

要综合效果，优先选 PaddleOCR-VL-1.5
要工程可控性、轻量化和更快的本地 pipeline，优先看 PP-StructureV3

如果你的任务是复杂文档高质量转写，我会更推荐 PaddleOCR-VL-1.5。如果你的任务是生产环境里的结构化解析和工程接入，PP-StructureV3 往往更顺手。

8. 参考资料

飞桨官方 PaddleOCR-VL 使用教程: www.paddleocr.ai/main/versio…
飞桨官方 PP-StructureV3 使用教程: www.paddleocr.ai/latest/vers…
飞桨官方 PP-StructureV3 简介: www.paddleocr.ai/main/versio…