PaddleOCR-VL：新一代多模态文档智能解析模型🚀 什么是PaddleOCR-VL？ PaddleOCR-VL

🚀 什么是PaddleOCR-VL？

PaddleOCR-VL 是百度推出的新一代多模态文档智能解析模型，2025年10月发布

在最新的 OmniDocBench V1.5 榜单中，它以 92.6 分的综合成绩位列全球第一，是目前唯二突破 90 分的模型。

![image-20251121113217104](/Users/thomas/Library/Application Support/typora-user-images/image-20251121113217104.png)

![image-20251121111852522](/Users/thomas/Library/Application Support/typora-user-images/image-20251121111852522.png)

![image-20251121112010876](/Users/thomas/Library/Application Support/typora-user-images/image-20251121112010876.png)

![image-20251121111221752](/Users/thomas/Library/Application Support/typora-user-images/image-20251121111221752.png)

![image-20251121113417682](/Users/thomas/Library/Application Support/typora-user-images/image-20251121113417682.png)

![image-20251121113443929](/Users/thomas/Library/Application Support/typora-user-images/image-20251121113443929.png)

📄 输入文档 ↓ 🔍 阶段一：PP-DocLayoutV2 ↓ 版面分析、区域分割、阅读顺序预测

↓ 🎯 阶段二：PaddleOCR-VL-0.9B
↓ 分区域精准识别 ↓ 📤 结构化输出

第一阶段 - 布局分析：由专门的视觉模型PP-DocLayoutV2负责。它会快速扫描文档图片，像人类一样识别出哪些区域是标题、正文、表格或公式，并确定符合人类习惯的阅读顺序。
第二阶段 - 内容识别：核心的PaddleOCR-VL-0.9B模型登场。它不再处理整张复杂的文档图，而是针对第一阶段划分好的一个个内容区域小图进行精准识别，并输出对应的结构化内容（如将表格转为Markdown，公式转为LaTeX）

特性	传统OCR	通用大模型	PaddleOCR-VL
文字识别	✅	✅	✅
表格解析	❌	⚠️	✅
公式转换	❌	⚠️	✅
版面理解	❌	✅	✅
部署成本	低	很高	中等
推理速度	很快	慢	快