一图胜千言:DeepSeek、Glyph 与 PaddleOCR-VL 的不同答案

319 阅读8分钟

让机器不仅能“看清”文字,更能“看懂”内容。

引言

过去的十年里,OCR 负责“识字”,VLM 负责“读图”。
如今,研究者尝试将这两种能力融合,让模型既能识别文字,也能理解整张图像背后的逻辑与语义。
这就是 VLM-OCR(视觉语言融合式识别) 的出现背景。

一、基础概念

VLM(Vison Language Model,视觉-语言模型):可以同时“看图”和“读/写文字”的大模型。例如你给一张图问问题,模型不仅看懂图像,还能把视觉信息与文字结合来回答问题。 简单类比:VLM = 能看图的智者(图像输入) + 会说会写的作家(语言模型)。

OCR(Optical Character Recognition,光学字符识别):把图片里的文字“识别”成可编辑的文本。传统 OCR 流程常常是两步:先检测文字区域(哪里有字),再识别这些文字; 近几年很多研究把它做成端到端模型,直接从图片输出完整文本或结构化结果(如表格、公式、图表数据)。 视觉 token / 文本 token:在模型里,图像会被切成许多“视觉 token”(类似小拼图),文本被分成许多“文本 token”(单词或子词)。模型的计算成本和内存通常和 token 数量直接相关。

二、传统方案瓶颈

OCR

  1. 复杂版面处理困难。 对多栏布局的文档识别困难,对多个合并单元格,内嵌表头等复杂表格解析不准确,以及跨页内容的处理比较麻烦。
  2. 对字体和样式敏感。 对非标字体,艺术体,手写体识别率低,字体大小也会影响识别准确率。
  3. 对图像质量要求高。 扫描文档中低分辨率,扭曲变形,光照阴影,噪点干扰等因素都会影响识别准确率。
  4. 无法进行语义理解。
  5. 领域识别依赖训练数据。 对医疗报告,法律文件,数学公式,乐谱,工程图纸等专业领域的识别需要进行专门的训练。

VLM

主流视觉编码策略有三类:双塔架构、切片(tile)方法、以及原生 patch(自适应分辨率)方法。

  • 双塔(Dual-tower):用两个并行的视觉通路(比如一个做细节,一个做全局)。优点是灵活、能应对高分辨率;缺点是需要双重预处理,部署和训练比较复杂。

  • 切片/拼图(Tile-based):把大图切成很多小块并行处理(像拼图一样)。优点:能处理极高分辨率且显存友好;缺点:如果原始编码器本身分辨率较低,大图会被切得太碎,产生过多视觉 token,导致计算和上下文连贯性问题。

  • 自适应分辨率 / patch(NaViT 等):直接把图片分 patch 处理并进入全局注意力机制。优点是灵活、能保持整体视野;缺点是对大图激活/内存消耗巨大,训练与推理都变慢,容易出现 GPU 内存溢出。

传统 OCR 技术的优势在于 底层本下精确的文字识别能力。 它能以较小的计算量,在各场景下输出稳定的文字结果。而 VLM 像一个“聪明的读者”,能理解语义和结构,但训练成本高,每翻一页都要耗大量算力。

三、三条通向“读懂视觉”的路径

  • OCR:从「识字」出发,强调文字级别的准确识别,成本低;
  • VLM:从「理解」出发,追求整图语义与跨模态推理,成本高。

1. PaddleOCR-VL(百度):从 OCR 到理解的“后融合式”演进

核心思想

百度的做法是:

  1. 保留 OCR 流程(检测 + 识别);
  2. 引入语言模型(VL 模块),对 OCR 输出进行语义建模。

简单来说:

OCR 识字 → VLM 理解。

实现原理

  • 视觉特征提取(Vision Encoder):使用 Swin Transformer 提取整页图像特征;
  • 文字检测与识别(OCR Stage):定位文字区域并识别内容;
  • 语义建模(VL Stage)
    • 将文字内容 + 位置信息 + 图像特征拼接;
    • 输入预训练语言模型(如 ERNIE-ViL 或 Qwen-VL);
    • 完成问答、摘要、结构化提取等任务。

优缺点解析

优点缺点
可直接与现有 OCR 系统对接仍是“两阶段”流程
工程成熟、训练稳定视觉与语言割裂
易部署于生产场景无法端到端优化、语义一致性欠佳

类比
PaddleOCR-VL 像是一名 OCR 专家旁边坐着一位语言学家。
前者识字精准,后者解释语义,但他们之间通过“中间稿件”交流,而非共用同一个大脑。


2. Glyph(智谱 AI):让“文字变成图”的视觉压缩革命

核心思想

与传统 OCR 相反,Glyph 把文字转成图片,让模型以“视觉方式”理解文本。
目标不是识别图片里的文字,而是让语言模型更高效地处理长文本上下文

简单来说:

“视觉是新的压缩通道,一图胜千言”。

实现原理

  1. 文本渲染(Rendering)
    • 将长文本渲染成高密度图像(Glyph Image);
    • 包含字体、布局、行距等视觉线索。
  2. 视觉编码(Vision Encoder)
    • 使用 CLIP / ViT 将文字图像转为视觉 token;
    • 相当于“视觉化”的文本向量。
  3. 语义解码(Language Decoder)
    • 将视觉 token 输入语言模型;
    • 模型通过“视觉通道”理解文本语义。

技术亮点

  • LLM-driven Genetic Search:自动调整字体、分辨率、排版,使信息密度最优;
  • 压缩率可控:在保持语义的前提下,将文本 token 数量压缩 3–4 倍。

优缺点解析

优点缺点
大幅提升 LLM 上下文容量不适用于真实图像识别
可复用视觉编码器对渲染参数依赖强
架构轻量、训练高效仅适合纯文本场景

类比
Glyph 就像把一本长小说印成一张微缩胶片——
模型不再逐字阅读,而是“扫一眼”理解概要。


3. DeepSeek-OCR:让模型“看清”又“看懂”的统一方案

核心思想

DeepSeek-OCR 追求端到端视觉语言统一编码
模型一次性输入整张图像,自动完成识别 + 理解,真正实现视觉与语言的融合。

实现原理

  1. Adaptive Resolution Encoder(自适应分辨率编码)
    • 使用 NaViT 式 patch 编码,支持多分辨率输入;
    • 不切图、不丢上下文;
    • 在高分辨率场景下自动下采样以节省显存。
  2. Visual Token Compression(视觉压缩模块)
    • 在局部注意力层与全局注意力层之间插入卷积压缩器;
    • 将上千视觉 token 压缩成数百个;
    • 显存节省 5–10 倍。
  3. Decoder with Mixture-of-Experts(稀疏专家解码器)
    • 推理时仅激活部分专家;
    • 在相同计算量下提升理解能力;
    • 输出文字、表格、图表或摘要。

优缺点解析

优点缺点
真正端到端,无需 OCR 阶段训练成本高
同时保留局部细节与全局语义超大图片仍显存敏感
在多任务场景表现优异工程实现复杂

类比
DeepSeek-OCR 就像让 AI 拿着放大镜看整张图,
一边看细节,一边理解整体,而不是先看再解释。

四、三者的核心区别:三种“读图哲学”

模型出发点关键机制技术路线适用场景
PaddleOCR-VL从 OCR 出发OCR 输出 + LLM 融合后融合工业识别、发票、合同
Glyph(智谱)从 LLM 出发文本 → 视觉压缩反向视觉化长文本压缩、知识图谱
DeepSeek-OCR从架构统一出发自适应视觉编码 + 压缩 + 解码端到端融合文档理解、图文检索、智能问答

三者的出发点不同,却都在回答同一个问题:如何让机器在有限资源下真正“读懂”图像中的文字与语义

五、展望与思考:AI 的“视觉阅读力”将走向何方?

当 DeepSeek、PaddleOCR-VL、Glyph 等模型在不同方向上探索视觉与语言的融合时,我们也许该思考一个更深的问题——
AI 是否正在尝试以人类的方式“阅读世界”?

过去,大语言模型的核心逻辑是“预测下一个词”。
这是一种线性的、逐字生成的思维方式。
而“视觉阅读力”(Visual Reading Intelligence)所代表的路线,
更接近人类阅读的真实过程:
先扫一眼全貌,再聚焦关键细节。

人类在阅读时,从来不是按顺序逐字理解,而是通过空间布局、视觉提示和上下文结构来建立认知模型。
这正是传统 LLM 所缺乏的能力。
因此,视觉阅读或许不仅是一种新的信息处理方式,更可能是AI 长上下文问题的潜在解法
当信息以图像形式被压缩并整体输入,模型的“注意力”就不再被文本长度所拖累,而能更自然地分配到全局语义层面。

但这种方式也引发新的思考:
视觉阅读力,本质上是一种信息压缩。将文字“转成图像”并非无损操作,分辨率、渲染方式、识别精度,甚至模型对视觉符号的理解偏差,
都可能让“压缩”变成“误读”。
与传统的信息摘要相比,这种图像压缩是否真的能保留更多关键信息?
还是说,我们只是换了一种更形象但同样易失真的摘要方式?

换句话说,视觉阅读力的未来, 不仅取决于模型能否看得更清楚、理解得更深, 更在于它能否忠实地表达原始信息而不丢失意义