deepseek团队又开源了一个颠覆性的项目-DeepSeek-OCRdeepseek 团队前天发布的开源项目 Deep

deepseek 团队前天发布的开源项目 DeepSeek-OCR 短短三天的时间就有 9.3k 的 star 了。可见此项目在 AI 圈内的火爆程度。

DeekSeek-OCR 核心的具有颠覆性的点就是用视觉 Token 实现 10 倍文本压缩

当今大语言模型面临一个核心困境：文本 Token 的数量与计算开销成正比。处理长篇 PDF 文档时，传统模型可能需要数千个文本 Token，成本高昂且容易内存溢出。

DeepSeek 团队采取了逆向思维——既然一张图像能承载大量文字信息，且所需 Token 远少于纯文本，何不把文本转成图像进行“光学压缩”？

团队在论文中写道：“一张包含文档文本的图像，可以用比等效数字文本少得多的 Token，来表示丰富信息”。这表明通过视觉 Token 进行光学压缩可以实现更高的压缩比。

DeepSeek-OCR 的架构由两大核心组件组成：DeepEncoder 视觉编码器和 DeepSeek3B-MoE 解码器

DeepEncoder：高压缩比视觉编码器 DeepEncoder 采用了一种创新的串行设计，结合了 SAM-base 和 CLIP-large 架构。

它先使用仅 8000 万参数的 SAM-base，通过窗口注意力机制提取局部视觉特征，确保细节不遗漏。

然后，通过一个双层 16× 卷积模块对视觉 Token 进行压缩，将 4096 个 Token 减少到仅 256 个。

最后，利用 3 亿参数的 CLIP-large，运用全局注意力机制把握整体信息，理解内容上下文。

这种“先局部后全局”的设计，使模型能在保证高分辨率输入处理能力的同时，控制内存开销。

多分辨率支持

为满足不同场景需求，DeepEncoder 支持从 Tiny 模式（512×512，64 个 Token）到 Gundam 模式（动态分块，近 800 个 Token）等多种输入分辨率。

这意味着同一个模型可以根据任务复杂度自动选择压缩等级，从手机端实时识别到高清扫描解析都能应对

DeepSeek3B-MoE 解码器

解码器采用 30 亿参数的混合专家架构，推理时仅激活 6 个专家模块，实际激活参数量约 5.7 亿。

这种“按需激活”机制让模型既具备 30 亿参数模型的强大表达能力，又保持了 5 亿参数模型的推理效率。

上图可见,在 Fox 基准测试中，DeepSeek-OCR 展现出卓越的压缩能力：

而在 OmniDocBench 基准测试中，DeepSeek-OCR 更是用更少资源实现了更优性能：

在生产环境中，DeepSeek-OCR 展现出强大的处理效率

DeepSeek-OCR 不仅能识别文字，还可以解析:

github上对这个项目的讨论还是挺多的。其中有几位网友对论文中的思路和想法的理解还是非常通俗易懂的

也有部分网友表示其真实效果不太尽如意，可能对一些场景下的效果优化的不够。

目前来看，此开源模型为解决token压缩提供了一个非常新颖的方向，这个方向走不走的远，最终行不行的通，还不得而知 大家可以根据下面的链接尝试下