让机器不仅能“看清”文字,更能“看懂”内容。
引言
过去的十年里,OCR 负责“识字”,VLM 负责“读图”。
如今,研究者尝试将这两种能力融合,让模型既能识别文字,也能理解整张图像背后的逻辑与语义。
这就是 VLM-OCR(视觉语言融合式识别) 的出现背景。
一、基础概念
VLM(Vison Language Model,视觉-语言模型):可以同时“看图”和“读/写文字”的大模型。例如你给一张图问问题,模型不仅看懂图像,还能把视觉信息与文字结合来回答问题。 简单类比:VLM = 能看图的智者(图像输入) + 会说会写的作家(语言模型)。
OCR(Optical Character Recognition,光学字符识别):把图片里的文字“识别”成可编辑的文本。传统 OCR 流程常常是两步:先检测文字区域(哪里有字),再识别这些文字; 近几年很多研究把它做成端到端模型,直接从图片输出完整文本或结构化结果(如表格、公式、图表数据)。 视觉 token / 文本 token:在模型里,图像会被切成许多“视觉 token”(类似小拼图),文本被分成许多“文本 token”(单词或子词)。模型的计算成本和内存通常和 token 数量直接相关。
二、传统方案瓶颈
OCR
- 复杂版面处理困难。 对多栏布局的文档识别困难,对多个合并单元格,内嵌表头等复杂表格解析不准确,以及跨页内容的处理比较麻烦。
- 对字体和样式敏感。 对非标字体,艺术体,手写体识别率低,字体大小也会影响识别准确率。
- 对图像质量要求高。 扫描文档中低分辨率,扭曲变形,光照阴影,噪点干扰等因素都会影响识别准确率。
- 无法进行语义理解。
- 领域识别依赖训练数据。 对医疗报告,法律文件,数学公式,乐谱,工程图纸等专业领域的识别需要进行专门的训练。
VLM
主流视觉编码策略有三类:双塔架构、切片(tile)方法、以及原生 patch(自适应分辨率)方法。
-
双塔(Dual-tower):用两个并行的视觉通路(比如一个做细节,一个做全局)。优点是灵活、能应对高分辨率;缺点是需要双重预处理,部署和训练比较复杂。
-
切片/拼图(Tile-based):把大图切成很多小块并行处理(像拼图一样)。优点:能处理极高分辨率且显存友好;缺点:如果原始编码器本身分辨率较低,大图会被切得太碎,产生过多视觉 token,导致计算和上下文连贯性问题。
-
自适应分辨率 / patch(NaViT 等):直接把图片分 patch 处理并进入全局注意力机制。优点是灵活、能保持整体视野;缺点是对大图激活/内存消耗巨大,训练与推理都变慢,容易出现 GPU 内存溢出。
传统 OCR 技术的优势在于 底层本下精确的文字识别能力。 它能以较小的计算量,在各场景下输出稳定的文字结果。而 VLM 像一个“聪明的读者”,能理解语义和结构,但训练成本高,每翻一页都要耗大量算力。
三、三条通向“读懂视觉”的路径
- OCR:从「识字」出发,强调文字级别的准确识别,成本低;
- VLM:从「理解」出发,追求整图语义与跨模态推理,成本高。
1. PaddleOCR-VL(百度):从 OCR 到理解的“后融合式”演进
核心思想
百度的做法是:
- 保留 OCR 流程(检测 + 识别);
- 引入语言模型(VL 模块),对 OCR 输出进行语义建模。
简单来说:
OCR 识字 → VLM 理解。
实现原理
- 视觉特征提取(Vision Encoder):使用 Swin Transformer 提取整页图像特征;
- 文字检测与识别(OCR Stage):定位文字区域并识别内容;
- 语义建模(VL Stage):
- 将文字内容 + 位置信息 + 图像特征拼接;
- 输入预训练语言模型(如 ERNIE-ViL 或 Qwen-VL);
- 完成问答、摘要、结构化提取等任务。
优缺点解析
| 优点 | 缺点 |
|---|---|
| 可直接与现有 OCR 系统对接 | 仍是“两阶段”流程 |
| 工程成熟、训练稳定 | 视觉与语言割裂 |
| 易部署于生产场景 | 无法端到端优化、语义一致性欠佳 |
类比:
PaddleOCR-VL 像是一名 OCR 专家旁边坐着一位语言学家。
前者识字精准,后者解释语义,但他们之间通过“中间稿件”交流,而非共用同一个大脑。
2. Glyph(智谱 AI):让“文字变成图”的视觉压缩革命
核心思想
与传统 OCR 相反,Glyph 把文字转成图片,让模型以“视觉方式”理解文本。
目标不是识别图片里的文字,而是让语言模型更高效地处理长文本上下文。
简单来说:
“视觉是新的压缩通道,一图胜千言”。
实现原理
- 文本渲染(Rendering)
- 将长文本渲染成高密度图像(Glyph Image);
- 包含字体、布局、行距等视觉线索。
- 视觉编码(Vision Encoder)
- 使用 CLIP / ViT 将文字图像转为视觉 token;
- 相当于“视觉化”的文本向量。
- 语义解码(Language Decoder)
- 将视觉 token 输入语言模型;
- 模型通过“视觉通道”理解文本语义。
技术亮点
- LLM-driven Genetic Search:自动调整字体、分辨率、排版,使信息密度最优;
- 压缩率可控:在保持语义的前提下,将文本 token 数量压缩 3–4 倍。
优缺点解析
| 优点 | 缺点 |
|---|---|
| 大幅提升 LLM 上下文容量 | 不适用于真实图像识别 |
| 可复用视觉编码器 | 对渲染参数依赖强 |
| 架构轻量、训练高效 | 仅适合纯文本场景 |
类比:
Glyph 就像把一本长小说印成一张微缩胶片——
模型不再逐字阅读,而是“扫一眼”理解概要。
3. DeepSeek-OCR:让模型“看清”又“看懂”的统一方案
核心思想
DeepSeek-OCR 追求端到端视觉语言统一编码。
模型一次性输入整张图像,自动完成识别 + 理解,真正实现视觉与语言的融合。
实现原理
- Adaptive Resolution Encoder(自适应分辨率编码)
- 使用 NaViT 式 patch 编码,支持多分辨率输入;
- 不切图、不丢上下文;
- 在高分辨率场景下自动下采样以节省显存。
- Visual Token Compression(视觉压缩模块)
- 在局部注意力层与全局注意力层之间插入卷积压缩器;
- 将上千视觉 token 压缩成数百个;
- 显存节省 5–10 倍。
- Decoder with Mixture-of-Experts(稀疏专家解码器)
- 推理时仅激活部分专家;
- 在相同计算量下提升理解能力;
- 输出文字、表格、图表或摘要。
优缺点解析
| 优点 | 缺点 |
|---|---|
| 真正端到端,无需 OCR 阶段 | 训练成本高 |
| 同时保留局部细节与全局语义 | 超大图片仍显存敏感 |
| 在多任务场景表现优异 | 工程实现复杂 |
类比:
DeepSeek-OCR 就像让 AI 拿着放大镜看整张图,
一边看细节,一边理解整体,而不是先看再解释。
四、三者的核心区别:三种“读图哲学”
| 模型 | 出发点 | 关键机制 | 技术路线 | 适用场景 |
|---|---|---|---|---|
| PaddleOCR-VL | 从 OCR 出发 | OCR 输出 + LLM 融合 | 后融合 | 工业识别、发票、合同 |
| Glyph(智谱) | 从 LLM 出发 | 文本 → 视觉压缩 | 反向视觉化 | 长文本压缩、知识图谱 |
| DeepSeek-OCR | 从架构统一出发 | 自适应视觉编码 + 压缩 + 解码 | 端到端融合 | 文档理解、图文检索、智能问答 |
三者的出发点不同,却都在回答同一个问题:如何让机器在有限资源下真正“读懂”图像中的文字与语义
五、展望与思考:AI 的“视觉阅读力”将走向何方?
当 DeepSeek、PaddleOCR-VL、Glyph 等模型在不同方向上探索视觉与语言的融合时,我们也许该思考一个更深的问题——
AI 是否正在尝试以人类的方式“阅读世界”?
过去,大语言模型的核心逻辑是“预测下一个词”。
这是一种线性的、逐字生成的思维方式。
而“视觉阅读力”(Visual Reading Intelligence)所代表的路线,
更接近人类阅读的真实过程:
先扫一眼全貌,再聚焦关键细节。
人类在阅读时,从来不是按顺序逐字理解,而是通过空间布局、视觉提示和上下文结构来建立认知模型。
这正是传统 LLM 所缺乏的能力。
因此,视觉阅读或许不仅是一种新的信息处理方式,更可能是AI 长上下文问题的潜在解法。
当信息以图像形式被压缩并整体输入,模型的“注意力”就不再被文本长度所拖累,而能更自然地分配到全局语义层面。
但这种方式也引发新的思考:
视觉阅读力,本质上是一种信息压缩。将文字“转成图像”并非无损操作,分辨率、渲染方式、识别精度,甚至模型对视觉符号的理解偏差,
都可能让“压缩”变成“误读”。
与传统的信息摘要相比,这种图像压缩是否真的能保留更多关键信息?
还是说,我们只是换了一种更形象但同样易失真的摘要方式?
换句话说,视觉阅读力的未来, 不仅取决于模型能否看得更清楚、理解得更深, 更在于它能否忠实地表达原始信息而不丢失意义。