deepseek团队又开源了一个颠覆性的项目-DeepSeek-OCR

126 阅读4分钟

deepseek 团队前天发布的开源项目 DeepSeek-OCR 短短三天的时间就有 9.3k 的 star 了。可见此项目在 AI 圈内的火爆程度。

1.jpg

DeekSeek-OCR 核心的具有颠覆性的点就是用视觉 Token 实现 10 倍文本压缩

为什么 token 压缩越来越重要

当今大语言模型面临一个核心困境:文本 Token 的数量与计算开销成正比。处理长篇 PDF 文档时,传统模型可能需要数千个文本 Token,成本高昂且容易内存溢出。

DeepSeek 团队采取了逆向思维——既然一张图像能承载大量文字信息,且所需 Token 远少于纯文本,何不把文本转成图像进行“光学压缩”?

团队在论文中写道:“一张包含文档文本的图像,可以用比等效数字文本少得多的 Token,来表示丰富信息”。这表明通过视觉 Token 进行光学压缩可以实现更高的压缩比。

DeepSeek-OCR 如何实现高倍压缩?

DeepSeek-OCR 的架构由两大核心组件组成:DeepEncoder 视觉编码器和 DeepSeek3B-MoE 解码器

DeepEncoder:高压缩比视觉编码器 DeepEncoder 采用了一种创新的串行设计,结合了 SAM-base 和 CLIP-large 架构。

它先使用仅 8000 万参数的 SAM-base,通过窗口注意力机制提取局部视觉特征,确保细节不遗漏。

然后,通过一个双层 16× 卷积模块对视觉 Token 进行压缩,将 4096 个 Token 减少到仅 256 个。

最后,利用 3 亿参数的 CLIP-large,运用全局注意力机制把握整体信息,理解内容上下文。

这种“先局部后全局”的设计,使模型能在保证高分辨率输入处理能力的同时,控制内存开销。

多分辨率支持

为满足不同场景需求,DeepEncoder 支持从 Tiny 模式(512×512,64 个 Token)到 Gundam 模式(动态分块,近 800 个 Token)等多种输入分辨率。

这意味着同一个模型可以根据任务复杂度自动选择压缩等级,从手机端实时识别到高清扫描解析都能应对

DeepSeek3B-MoE 解码器

解码器采用 30 亿参数的混合专家架构,推理时仅激活 6 个专家模块,实际激活参数量约 5.7 亿。

这种“按需激活”机制让模型既具备 30 亿参数模型的强大表达能力,又保持了 5 亿参数模型的推理效率。

论文中的实测表现

惊人的压缩效率

2.png 上图可见,在 Fox 基准测试中,DeepSeek-OCR 展现出卓越的压缩能力:

  • 压缩比 ≤10 倍时,OCR 精度高达 97%,近乎无损压缩

  • 压缩比接近 20 倍时,精度仍保持在 60% 左右

而在 OmniDocBench 基准测试中,DeepSeek-OCR 更是用更少资源实现了更优性能:

  • 仅用 100 个视觉 Token 就超越了 GOT-OCR2.0(每页 256 个 Token)
  • 用不到 800 个 Token,性能超过了需要近 7000 个 Token 的 MinerU2.0

生产环境下的真实处理能力

在生产环境中,DeepSeek-OCR 展现出强大的处理效率

  • 单张 A100-40G GPU每天可处理20 万+页文档
  • 20 个计算节点(160 块 A100)能达到每日 3300 万页的训练数据生成能力

更加丰富和深度的解析能力

DeepSeek-OCR 不仅能识别文字, 还可以解析:

  • 金融图表:直接转换为结构化数据

3.jpg

  • 几何图形:进行复制与结构化解析

4.jpg

  • 多语言支持:处理近 100 种语言,包括阿拉伯语与僧伽罗语等小语种

5.jpg

网友真实反馈

github上对这个项目的讨论还是挺多的。 其中有几位网友对论文中的思路和想法的理解还是非常通俗易懂的

6.jpg

也有部分网友表示其真实效果不太尽如意,可能对一些场景下的效果优化的不够。

7.jpg

目前来看,此开源模型为解决token压缩提供了一个非常新颖的方向,这个方向走不走的远,最终行不行的通,还不得而知 大家可以根据下面的链接尝试下

GitHub 仓库:github.com/deepseek-ai…

HuggingFace 地址:huggingface.co/deepseek-ai…