同属PaddleOCR的产品,PaddleOCR-VL-1.5和PP-StructureV3到底有什么区别呢,什么时候用PaddleOCR-VL-1.5,什么时候用PP-StructureV3呢?
1. 先看飞桨官方怎么定义这两个方案
1.1 PaddleOCR-VL-1.5
根据飞桨官方 PaddleOCR-VL 使用文档和官方文档说明:
- doc_parser 支持直接输入图片或 PDF。
- 结果可以保存为 Markdown。
这意味着 PaddleOCR-VL-1.5 更像一条偏 VLM 的通用文档解析产线,不只是传统 OCR。
1.2 PP-StructureV3
根据飞桨官方 PP-StructureV3 说明和使用文档,它是一条通用文档解析产线,重点增强了:
- 版面检测
- 表格识别
- 公式识别
- 图表理解
- 阅读顺序恢复
- Markdown 转换
官方文档还明确说明:
- 支持输出 json、可视化图片和 markdown
- 支持按场景替换模块配置,做更轻量或更高精度的部署
这说明 PP-StructureV3 更像一条工程化的文档解析 pipeline。
官方资料:
- PP-StructureV3 使用教程: 使用教程 - PaddleOCR 文档
- PP-StructureV3 简介: PP-StructureV3简介 - PaddleOCR 文档
2. 本地是怎么部署 PaddleOCR-VL-1.5 和PP-StructureV3
部署PP-StructureV3可以看另一篇文章:
PDF 转 Markdown 文档:用 PP-StructureV3 一键完成结构化转换
部署PaddleOCR-VL-1.5的步骤也可以参考上面,因为前面的安装部署是一样的:
2.1安装 PaddlePaddle(GPU 示例)
可以根据链接找到适合自己电脑的安装代码。开始使用_飞桨-源于产业实践的开源深度学习平台
值得一提的是,模型的缓存路径最好不要出现中文,否则会无法识别,导致出错。
python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
2.2 安装 PaddleOCR
全量安装:
python -m pip install "paddleocr[all]"
如果你只关心文档解析能力,也可以只装对应依赖组:
python -m pip install -U "paddleocr[doc-parser]"
2.3 统一缓存目录
我使用的环境脚本会把以下目录全部固定到 D:\OCR\cache...:
同时额外设置:
$env:HF_HUB_DISABLE_XET = "1"
这样做的原因是,前面下载 PaddleOCR-VL-1.5 时,Hugging Face 的 Xet 分片下载在本机上出现过异常,禁用后更稳。
2.4 实际 smoke test 命令
本机验证时,实际使用的命令如下:
Set-ExecutionPolicy -Scope Process Bypass -Force
. D:\OCR\scripts\Set-OcrEnv.ps1
& D:\OCR\venvs\paddlevl\Scripts\Activate.ps1
$env:PADDLE_PDX_DISABLE_MODEL_SOURCE_CHECK='True'
paddleocr doc_parser -i D:\OCR\samples\smoke_input.png --save_path D:\OCR\logs\paddlevl_smoke --pipeline_version v1.5 --device gpu:0 --max_new_tokens 256
这里有两个关键点:
- --pipeline_version v1.5 明确指定 PaddleOCR-VL-1.5
- PADDLE_PDX_DISABLE_MODEL_SOURCE_CHECK=True 能减少本机环境下的兼容问题
2.5 为什么这套部署方式靠谱
因为它不是“装成功就算完成”,而是已经在本机做过真实 smoke test,且后续 benchmark 里也沿用了同一条官方 CLI 调用链路。
一句话概括,这次 PaddleOCR-VL-1.5 的部署逻辑就是:
-
用英文缓存目录避开中文路径问题
-
用独立虚拟环境隔离依赖
-
用官方 paddleocr doc_parser 入口跑通
-
再接进统一 benchmark pipeline
3. 这次 benchmark 的流程
这次对比不是全量长跑,而是本地 lite benchmark(在OmniDocBench和MDPBench里面分层抽样的样本集):
- OmniDocBench Lite: 80 页
- MDPBench Lite: 24 页
需要注意的是,这里的 rank_score 不是官方单一指标,而是本地为了便于排序做的聚合分数:
((1 - text_block) + (1 - reading_order) + table_teds + (1 - formula)) / 4
其中:
- rank_score 越高越好,理论满分 1.0
- text_block 越低越好,理想值 0.0
- reading_order 越低越好,理想值 0.0
- table_teds 越高越好,理想值 1.0
- formula 越低越好,理想值 0.0
4. Lite 数据集实测对比
4.1 OmniDocBench Lite
| 模型 | Rank Score | Text Block | Reading Order | Table TEDS | Formula | 成功率 | 平均单页耗时 |
|---|---|---|---|---|---|---|---|
| PaddleOCR-VL-1.5 | 0.9274 | 0.0416 | 0.0361 | 0.9027 | 0.1155 | 80/80 | 73.11s |
| PP-StructureV3 | 0.8610 | 0.1111 | 0.0696 | 0.8234 | 0.1988 | 80/80 | 40.17s |
4.2 MDPBench Lite
| 模型 | Rank Score | Text Block | Reading Order | Table TEDS | Formula | 成功率 | 平均单页耗时 |
|---|---|---|---|---|---|---|---|
| PaddleOCR-VL-1.5 | 0.7690 | 0.2248 | 0.1604 | 0.7988 | 0.3375 | 24/24 | 35.39s |
| PP-StructureV3 | 0.6734 | 0.3278 | 0.1538 | 0.5142 | 0.3391 | 23/24 | 37.04s |
4.3 结论
从本次 lite benchmark 看:
- PaddleOCR-VL-1.5 在两个数据集上都赢了
- PP-StructureV3 在 OmniDocBench Lite 上速度明显更快
- PP-StructureV3 在 MDPBench Lite 上阅读顺序略优一点,但表格能力差距比较明显
- PaddleOCR-VL-1.5 的综合精度和跨场景稳定性更好
github.com/PrayerQX/do… 我把两个模型的代码和数据集都放在github里面了,你们也可以去试试,里面还包括了我测试的其它模型,其实在本次测试中,PaddleOCR-VL-1.5的数据综合位列第一。
5. 这两个方案分别有什么优缺点
5.1 PaddleOCR-VL-1.5
优点
- 综合效果更强,这次两个 lite 数据集都领先
- 文本块恢复最好,复杂页面内容还原更稳
- 表格结构恢复明显更强
- 公式恢复整体更稳
- 在跨场景文档上泛化更好
缺点
- 更吃资源
- 在这台 1080 Ti 11GB 上明显更慢
- 更像一条偏 VLM 的文档解析路线,部署和推理成本都更高
5.2 PP-StructureV3
优点
- 更偏工程化 pipeline,结构化思路更清晰
- 官方本身就支持 default / full / lightweight 多配置形态
- 更容易根据硬件和场景做轻量化调节
- 在本机 OmniDocBench Lite 上速度明显快于 PaddleOCR-VL-1.5
- 对只需要文档结构解析、Markdown 导出和工程集成的场景比较友好
缺点
- 本次 benchmark 中综合精度不如 PaddleOCR-VL-1.5
- 表格指标差距较明显,尤其在 MDPBench Lite
- 跨复杂场景时整体恢复质量仍弱一档
- 这次 MDPBench Lite 有 1 页失败,不如 PaddleOCR-VL-1.5 全成功稳定
6. 更适合什么场景
6.1 更适合选 PaddleOCR-VL-1.5 的场景
- 你最关心最终解析质量
- 文档里表格、公式、复杂版面较多
- 你想做更高质量的 PDF 转 Markdown
- 你需要跨场景稳定性,而不是只在单一版式里表现好
- 你在做 benchmark、评测、研究型项目
一句话概括:PaddleOCR-VL-1.5 更适合“效果优先”。
6.2 更适合选 PP-StructureV3 的场景
- 你更关注工程落地而不是极限精度
- 你希望用更明确的 pipeline 方式做二次集成
- 你需要可调的轻量化配置
- 你更看重解析速度和部署灵活性
- 你的任务重点是版面解析、结构提取、Markdown 导出,而不是追求最强的表格和公式恢复
一句话概括:PP-StructureV3 更适合“工程优先”。
7. 最后怎么选
如果只给一个简单建议:
- 要综合效果,优先选 PaddleOCR-VL-1.5
- 要工程可控性、轻量化和更快的本地 pipeline,优先看 PP-StructureV3
如果你的任务是复杂文档高质量转写,我会更推荐 PaddleOCR-VL-1.5。 如果你的任务是生产环境里的结构化解析和工程接入,PP-StructureV3 往往更顺手。
8. 参考资料
- 飞桨官方 PaddleOCR-VL 使用教程: www.paddleocr.ai/main/versio…
- 飞桨官方 PP-StructureV3 使用教程: www.paddleocr.ai/latest/vers…
- 飞桨官方 PP-StructureV3 简介: www.paddleocr.ai/main/versio…