DeepSeek团队正式推出新一代光学字符识别系统DeepSeek-OCR 2,通过创新的DeepEncoder V2架构,实现了视觉编码从 “固定扫描” 到 “语义推理” 的革命性范式转变。该模型由魏浩然、孙耀峰、李宇琨三位研究者联合开发,不仅在核心性能上实现显著突破,更开创了多模态统一处理的全新路径,相关模型、技术报告及代码已全面开源。
GitHub地址:github.com/deepseek-ai…
Model地址:huggingface.co/deepseek-ai…
传统OCR模型如同死板的复印机,必须按从左到右、从上到下的栅格顺序扫描图像,即便面对表格、公式、多栏布局等复杂文档,也无法灵活调整阅读逻辑。而DeepSeek-OCR 2的核心创新在于DeepEncoder V2架构,其彻底抛弃了传统的CLIP编码器,转而采用轻量级语言模型Qwen2-500M作为视觉编码核心,并引入 “因果流查询” 机制。这一设计赋予模型根据图像语义动态重排视觉Token的能力,构建起 “编码器重排 + 译码器解析” 的两级级联1D因果推理结构,就像为AI装上了 “人类的阅读逻辑”,使其能够贴合复杂文档的自然阅读顺序进行理解。
在架构细节上,DeepSeek-OCR 2延续了 “编码器 - 解码器” 的整体框架,但对核心组件进行了重构。编码器部分由视觉分词器和 LLM 式编码模块组成:视觉分词器基于 8000万参数的 SAM-base 与两层卷积层构建,将最终输出维度优化为 896 以适配后续流程;LLM 式编码模块则通过定制化注意力掩码,实现视觉 Token 的双向注意力(保留全局建模能力)与因果流查询的因果注意力(仅关注前文 Token)的有机结合。解码器则沿用 DeepSeek-OCR 的 30 亿参数 MoE 结构(推理时激活约 5 亿参数),在视觉 Token 与文本提示的约束下生成输出。通过多裁剪策略,模型最终仅需 256-1120 个视觉 Token 即可覆盖复杂文档页面,显著低于同类模型的 6000+Token 规模,大幅降低了下游 LLM 的计算开销。
性能测试中,DeepSeek-OCR 2 展现出强劲实力。在覆盖中英文 9 大文档类别的 OmniDocBench v1.5 基准测试中,其综合得分达到 91.09%,较前代模型提升 3.73%,尤其在阅读顺序识别的编辑距离指标上,从 0.085 降至 0.057,体现出更强的逻辑连贯性。在相同视觉 Token 预算(1120 个)下,其文档解析任务的编辑距离(0.100)优于 Gemini-3 Pro(0.115),验证了其在高压缩率下的精准识别能力。生产环境测试更凸显实用价值:处理在线用户日志图像时,重复率从 6.25% 降至 4.17%;在 PDF 预训练数据处理中,重复率从 3.69% 降至 2.88%,有效提升了数据质量与处理效率。
模型的训练过程分为三个关键阶段:第一阶段通过语言建模目标训练 DeepEncoder V2,在160台A100 GPU上以640 批大小训练40k次迭代,使模型获得基础的特征提取与 Token 重排能力;第二阶段冻结视觉分词器,联合优化编码器与解码器,采用4阶段流水线并行提升训练效率;第三阶段冻结编码器,仅更新解码器参数,以两倍速完成20k次迭代,让 LLM 更好地适配重排后的视觉 Token。训练数据方面,模型沿用OCR 1.0、OCR 2.0 及通用视觉数据(OCR数据占比80%),并通过均衡采样与标签优化提升数据质量。
DeepSeek-OCR 2的应用场景主要集中在两大领域:一是为DeepSeek-LLM提供图像 / 文档读取能力的在线OCR服务,二是用于批量PDF处理的预训练数据流水线。而其架构创新的意义远不止于OCR领域 —— 这种将语言模型架构用于视觉编码的思路,为构建统一的全模态编码器提供了可行路径。未来,同一AI模型或许能通过类似机制处理图像、声音、视频等多种模态数据,实现多模态的深度统一。
不过模型仍有改进空间:在报纸类文档识别中,由于文本密度高且训练样本仅25万条,其编辑距离超过0.13,团队计划通过增加局部裁剪数量与扩充训练数据来优化。总体而言,DeepSeek-OCR 2通过因果推理重构视觉理解逻辑,既实现了性能与效率的双重突破,又为多模态智能的发展奠定了基础,有望在文档处理、图表分析等依赖复杂视觉理解的场景中引发变革。