1月27日,DeepSeek在自己官方的Github仓库开源了Deepseek OCR 2的核心实现。
论文和代码的地址如下
论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
代码地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
Deepseek OCR 2的核心突破
Deepseek OCR2的核心突破在于,它学会了像人类一样阅读。
传统OCR通常采用光栅扫描顺序处理作响,也就是机械的从左到右,从上到下。
做过OCR类项目的同学应该能了解到,这种情况下OCR提取出来的内容其实是没有语义关系的,只有空间关系,所以经常会丢东西。
而由于是扫描,扫描并不是阅读,他不是说先看标题,再看正文,所以对于一些类似表格的结构,OCR是很难处理得好的,例如保险场景里的左中右的责任条款。
Deepseek OCR 2的核心架构
这张图展示了多模态模型的架构演进,左边的版本是分别使用了视觉编码器和文本编码器来处理图像和文本,最终进行合并动作,但二者是没有因果关系的(non-causal)。
而右边原本视觉编码器(CLIP)的位置换成了5亿参数的Qwen 2语言模型,把它直接当成视觉编码器来使用。
而更关键的是注意力掩码(Attenion mask)的设计。
我们可以按行来查看这幅图,没有因果关系的视觉token(VIT区域),前后都可以相互查看,先全局理解版面。
而拥有因果关系绿粉LM区域,每个位置只能看到自己和前面的位置,看不到后面粉色的地方。
这也就是第一幅图说的,可学习的指令(learnable query)形成的新阅读序列,模型学会了先看哪里再看哪里。
而底部的红线划掉了原本CLIP的输出,只保留了经过Qwen2处理后的最终输出,这也会让输出更加贴近人读的顺序。
不可思议的是,这款开源模型参数才3B,推理门槛显著低于大模型。
在使用在表中最大预算Token是1120时的,准确率达到了第一:91.09%。我们可以看到Gemini 2.5 Pro,GPT-4o的准确率还不到90%,而其他的Qwen3-VL-235B要消耗更多的Token才能达到接近的效果。
V-token^max:处理文档时使用的最大视觉token数(看图的"分辨率")
Text^Edit:文本内容的编辑距离(识别文字的准确度)
Formula^Edit:数学公式的编辑距离(识别 LaTeX/公式的准确度)
Table^Edit:表格结构的编辑距离(还原表格HTML/Markdown的准确度)
R-order^Edit:阅读顺序的编辑距离(判断文字该按什么顺序读的准确度)
Overall^Edit:综合编辑距离(总体表现)
而在相同视觉token情况下,文档理解的总体表现也优于Gemini-3 Pro。
和Engram机制会擦出什么火花?
前几天发布的文章里,讲解了EngramDeepSeek梁文锋新论文凌晨发布,V4或引入全新记忆架构。
那DeepseekOCR 和Engram能碰撞出什么火花呢?
我觉得这两次Deepseek的创新是把大模型的能力扩展到了原本不太擅长的地方,Deepseek OCR解决怎么读图,而Engram解决怎么记忆和怎么查询。
前者可以用来生产更干净的数据语料,用于模型训练或者知识库,并且减少噪声,后者通过Engram的机制减少算力浪费,提升了长线的稳定性。
你看在论文里披露,在处理在线用户的图像日志时,重复率下降了2.08%,在PDF的预训练数据生产场景,重复率也下降了0.81%,这也论证了前面的观点。
看完这两次Deepseek的论文,感觉真的是穷人的孩子早当家,MoE、MLA,Engram,Deepseek OCR都是在有限的条件下不断的突破性能,包括今天看Qwen的测试时扩展技术。
但好在GLM Image已经带来了曙光,它是首个在国产芯片上完成全程训练的多模态模型,当我们拥有更低的成本,同级别的芯片,我们一定能做的更好。