表格、多栏、手写全拿下：开源国产 OCR 终于不再“只会认字”（附源码）这个OCR，它不只是“识别率又高了几个点”，而是

大家好，我是小悟。

国产模型团队 DeepSeek，把新一代的 DeepSeek-OCR-2 开源。

这个OCR，它不只是“识别率又高了几个点”，而是从根上换了个思路：让模型像人一样，带着逻辑去看一页文档，而不是像扫描仪那样机械地从左上角扫到右下角。

🤔 它解决了什么痛点？

很多人对 OCR 的印象可能还停留在“把图片里的字弄出来”。但真在工作中用过 OCR 的人，大多被下面这些情况折磨过：

排版灾难：扫描一份带表格的会议纪要，导出来的 Word 里，标题跑到段落中间，表格变成一堆乱糟糟的符号，编号全乱套。
手写体噩梦：拍一张手写笔记，想转成电子版，“三月五日”被识别成“三月吾日”，“张工”变成“章工”，改起来比自己重打一遍还费劲。
PDF 转文本之痛：几十页的 PDF 合同，想转成可编辑文档，要么花一下午手动调整格式，要么花钱买 SaaS 服务，还担心合同内容被传到别人服务器上。

这些问题的根源，是传统 OCR 工具只管“认字”，不管“结构”。

它们把页面当成一堆像素，按顺序抠出字符，却完全不管标题层级、表格结构、段落关系。结果就是：字是认出来了，但文档的逻辑已经被拆得七零八落。

而 DeepSeek-OCR-2 盯上的，就是这个被忽视太久的问题：让模型先“读懂”文档结构，再谈识别文字。

🧐 DeepSeek-OCR-2 是什么？

先简单交代一下背景：DeepSeek 在 2025 年 10 月就发布过一代 DeepSeek-OCR，当时的重点是“用视觉方式压缩长文本”。这次的 DeepSeek-OCR-2，是在它基础上的升级版，但思路完全换了一条路。

它的核心，是一个叫 DeepEncoder V2 的新视觉编码器。它的作用，可以简单理解成：它不再把图片粗暴地按“左上到右下”的顺序切成条。

而是先“看一眼”整页内容，理解哪里是标题、哪里是表格、哪里是正文，再按照一个更合理的逻辑顺序，把信息重新排好，交给大语言模型去处理。

这种做法，很像我们人看文档时的习惯：先看标题，再扫一眼整体结构，遇到表格会按列或按行看，遇到分栏会自动“跳读”。模型第一次在编码阶段，就开始模仿这种“带着目的去看”的方式。

从技术上说，它做了几件关键的事：

换掉传统编码器：用一个小一点的语言模型（Qwen2-0.5B）替代了原来基于 CLIP 的视觉编码器，让视觉信息也能被“语言化”地处理。
引入“因果流查询” ：模型里新增了一组可学习的“查询 Token”，它们会像人一样，根据已经看到的内容，决定下一步该“看哪里”，从而形成一个有逻辑顺序的“阅读路径”。
控制信息量：通过精巧的设计，把一整页复杂文档压缩到 256～1120 个视觉 Token，既保证了信息密度，又不会让下游的大模型“消化不良”。

简单概括：DeepSeek-OCR-2 不再只是一个“认字工具”，而是一个能理解文档结构的“视觉阅读器”。

🚀 核心功能有哪些？

它的能力主要体现在以下几个方面：

复杂文档理解

在 OmniDocBench v1.5 这样的文档理解基准上，DeepSeek-OCR-2 综合得分 91.09% ，比上一代提升了 3.73%。

特别是在“阅读顺序”这个指标上，进步非常明显，这说明它确实更懂“先读什么、后读什么”。
高压缩下的稳定表现

它只用 256～1120 个视觉 Token 就能表示一整页文档，在相似的 Token 预算下，其文档解析效果甚至优于一些闭源模型。对于需要处理海量文档的企业来说，这意味着更低的成本和更高的效率。
贴近真实的生产指标

在 DeepSeek 自己的生产环境中，在线日志和 PDF 数据处理的重复率明显下降（分别从 6.25% 降到 4.17%，3.69% 降到 2.88%）。

这个提升意味着，用它的结果去训练大模型，输入质量会更高，模型也更容易“学干净”。
多场景适配

模型提供了 Tiny / Small / Base / Large / Gundam 等不同尺寸，可以根据硬件条件和场景需求灵活选择。

其中 Gundam 版本专门针对大尺寸、复杂文档优化，能更好地处理多栏排版、图文混排的文档。
本地部署与开源生态

官方已经把模型、代码、论文全部开源， Hugging Face、GitHub 都能直接下载。

你可以很容易地在自己的机器上搭一个本地的文档解析服务，完全离线运行，特别适合对隐私敏感的场景。

本地安装

1、克隆此仓库并导航到 DeepSeek-OCR-2 文件夹git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git
2、Condaconda create -n deepseek-ocr2 python=3.12.9 -yconda activate deepseek-ocr2
3、软件包pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whlpip install -r requirements.txtpip install flash-attn==2.7.3 --no-build-isolation

开源社区

项目地址：https://github.com/deepseek-ai/DeepSeek-OCR-2
模型地址：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
论文地址：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

👍 为什么推荐它？

推荐它，不只是因为指标好看，更因为它有几个很实际的优点：

它真的在“读”文档，而不是“认字”

它输出的结果自带结构，标题、列表、表格都给你分好了。这意味着你可以直接用它构建知识库、做文档问答，而不需要再写一堆规则去“猜”结构。
它开源得足够彻底

Paper、Code、Model 全部开放，社区可以基于它做二次开发。对于企业来说，可以把这套能力完全掌控在自己手里。
它让“文档数字化”这件事变得更便宜

高压缩率意味着更低的算力成本，对于需要处理海量历史文档的机构来说，这是一个可以实实在在降本增效的工具。
它代表了一种新的方向

DeepSeek 通过这次更新，把“因果推理”的思路从语言模型延伸到了视觉领域。这种尝试，对整个国产多模态生态来说，都是好事。

✍️ 写在最后

回头看，我们会发现，大模型的能力升级，正在从“能说会聊”，慢慢变成“能看懂、能干活”。

DeepSeek-OCR-2 就是这条路上一个很具体的注脚：它不追求榜单上那几个夸张的数字，而是把注意力放在一个非常朴素的问题上，怎么让机器真正“看懂”一页文档。

对于普通用户来说，它可能是你整理资料、数字化文档的得力助手。对于企业和开发者来说，它是一个可以深度集成、构建差异化能力的底层工具。

谢谢你看我的文章，既然看到这里了，如果觉得不错，随手点个赞、转发、在看三连吧，感谢感谢。那我们，下次再见。

您的一键三连，是我更新的最大动力，谢谢

山水有相逢，来日皆可期，谢谢阅读，我们再会

我手中的金箍棒，上能通天，下能探海