deepseek 团队前天发布的开源项目 DeepSeek-OCR 短短三天的时间就有 9.3k 的 star 了。可见此项目在 AI 圈内的火爆程度。
DeekSeek-OCR 核心的具有颠覆性的点就是用视觉 Token 实现 10 倍文本压缩
为什么 token 压缩越来越重要
当今大语言模型面临一个核心困境:文本 Token 的数量与计算开销成正比。处理长篇 PDF 文档时,传统模型可能需要数千个文本 Token,成本高昂且容易内存溢出。
DeepSeek 团队采取了逆向思维——既然一张图像能承载大量文字信息,且所需 Token 远少于纯文本,何不把文本转成图像进行“光学压缩”?
团队在论文中写道:“一张包含文档文本的图像,可以用比等效数字文本少得多的 Token,来表示丰富信息”。这表明通过视觉 Token 进行光学压缩可以实现更高的压缩比。
DeepSeek-OCR 如何实现高倍压缩?
DeepSeek-OCR 的架构由两大核心组件组成:DeepEncoder 视觉编码器和 DeepSeek3B-MoE 解码器
DeepEncoder:高压缩比视觉编码器 DeepEncoder 采用了一种创新的串行设计,结合了 SAM-base 和 CLIP-large 架构。
它先使用仅 8000 万参数的 SAM-base,通过窗口注意力机制提取局部视觉特征,确保细节不遗漏。
然后,通过一个双层 16× 卷积模块对视觉 Token 进行压缩,将 4096 个 Token 减少到仅 256 个。
最后,利用 3 亿参数的 CLIP-large,运用全局注意力机制把握整体信息,理解内容上下文。
这种“先局部后全局”的设计,使模型能在保证高分辨率输入处理能力的同时,控制内存开销。
多分辨率支持
为满足不同场景需求,DeepEncoder 支持从 Tiny 模式(512×512,64 个 Token)到 Gundam 模式(动态分块,近 800 个 Token)等多种输入分辨率。
这意味着同一个模型可以根据任务复杂度自动选择压缩等级,从手机端实时识别到高清扫描解析都能应对
DeepSeek3B-MoE 解码器
解码器采用 30 亿参数的混合专家架构,推理时仅激活 6 个专家模块,实际激活参数量约 5.7 亿。
这种“按需激活”机制让模型既具备 30 亿参数模型的强大表达能力,又保持了 5 亿参数模型的推理效率。
论文中的实测表现
惊人的压缩效率
上图可见,在 Fox 基准测试中,DeepSeek-OCR 展现出卓越的压缩能力:
-
压缩比 ≤10 倍时,OCR 精度高达 97%,近乎无损压缩
-
压缩比接近 20 倍时,精度仍保持在 60% 左右
而在 OmniDocBench 基准测试中,DeepSeek-OCR 更是用更少资源实现了更优性能:
- 仅用 100 个视觉 Token 就超越了 GOT-OCR2.0(每页 256 个 Token)
- 用不到 800 个 Token,性能超过了需要近 7000 个 Token 的 MinerU2.0
生产环境下的真实处理能力
在生产环境中,DeepSeek-OCR 展现出强大的处理效率
- 单张 A100-40G GPU每天可处理20 万+页文档
- 20 个计算节点(160 块 A100)能达到每日 3300 万页的训练数据生成能力
更加丰富和深度的解析能力
DeepSeek-OCR 不仅能识别文字, 还可以解析:
- 金融图表:直接转换为结构化数据
- 几何图形:进行复制与结构化解析
- 多语言支持:处理近 100 种语言,包括阿拉伯语与僧伽罗语等小语种
网友真实反馈
github上对这个项目的讨论还是挺多的。 其中有几位网友对论文中的思路和想法的理解还是非常通俗易懂的
也有部分网友表示其真实效果不太尽如意,可能对一些场景下的效果优化的不够。
目前来看,此开源模型为解决token压缩提供了一个非常新颖的方向,这个方向走不走的远,最终行不行的通,还不得而知 大家可以根据下面的链接尝试下
GitHub 仓库:github.com/deepseek-ai…
HuggingFace 地址:huggingface.co/deepseek-ai…