能本地跑，复杂文档识别，0.9B小模型，GLM-OCR开源即巅峰（附源码）直接说正事，智谱把自家的新一代OCR模型 GL

大家好，我是小悟。

直接说正事，智谱把自家的新一代OCR模型 GLM-OCR 直接开源了，而且一上来就是“小身材、大能量”的路线。

参数只有0.9B，却在权威的 OmniDocBench V1.5 榜单上拿了 94.6 分，在文本、公式、表格、信息抽取这几项里都冲到了 SOTA。

🤯 痛点：传统OCR的“老大难”

用过传统OCR工具的朋友，大概率都遇到过这些场景：

扫描版PDF：稍微模糊一点，或者表格跨页，出来的结果就是一团乱码，不是缺行少列，就是数字对不上。

手写体：学生的作业、医生的处方，识别率直接“跳水”，最后还是得靠人肉校对。

复杂表格：合并单元格、多层表头，识别出来就是一维文本，想还原成可用的表格，得手动调整半天。

公式截图：好不容易拍清楚，OCR 出来的却是一串看不懂的符号，想转成 LaTeX 更是奢望。

印章与文本重叠：盖章文件要提取信息，常常被印章盖住关键字段，传统方法很难把两者干净地分开。

多语言混排：中英文、数字、符号挤在一起，识别结果经常出现“串台”的尴尬情况。

很多方案为了效果，模型动辄几个B、几十B的参数，部署起来对显卡和内存要求很高，普通开发者和小团队只能望而却步。

成本也是个现实问题，按量计费、并发限制，处理海量历史文档时，账单会让人心头一紧。

所以，当我看到 GLM-OCR 的参数和定位时，心里想的是：这模型，能顶。

🧠 GLM-OCR：麻雀虽小，五脏俱全

GLM-OCR 是智谱基于 GLM-V 系列“视觉编码器 + 语言解码器”思路，专门为文档理解打造的一款多模态OCR模型。它的核心特点可以概括为：小、准、全、快、便宜。

小：模型总参数约 0.9B（其中视觉编码器约 400M，语言解码器约 0.5B），体积和显存占用都控制得很好，普通显卡甚至 CPU 环境都有机会跑起来。

准：在 OmniDocBench V1.5 综合榜单上拿到 94.6 分，在文本、公式、表格、信息抽取等多个子任务中都达到了 SOTA 或接近 SOTA 的水平。

全：它不只是“识字”，而是能理解整个文档的版式。官方重点优化了六大真实业务场景：代码文档、复杂表格、手写体、多语言、印章识别、票据提取。

快：官方测试数据显示，单副本单并发下，处理 PDF 的吞吐量约 1.86 页/秒，处理图片约 0.67 张/秒，速度在同类小参数模型里很有竞争力。

便宜：官方 API 定价为 0.2 元/百万 Tokens，1 块钱大概能处理 2000 张 A4 扫描图或 200 份 10 页的 PDF，成本约为传统 OCR 方案的十分之一。

从技术架构上看，GLM-OCR 采用了“视觉编码器 → 跨模态连接层 → 语言解码器”的三级结构。

并引入了多 Tokens 预测损失（MTP）和全任务强化学习等训练策略，让模型在有限参数下也能学到更强的上下文理解和泛化能力。

🚀 核心功能：不止于“识字”

GLM-OCR 的功能覆盖了从简单识别到复杂理解的多个层次，实用性很强。

通用文本识别

支持照片、截图、扫描件、PDF 等多种输入，能较好地应对手写体、印章、代码截图等特殊内容。

对于学生、科研人员、程序员等需要数字化笔记或文档的人来说，非常友好。

复杂表格解析

能理解合并单元格、多层表头、斜线表头等复杂结构，并直接输出 HTML 表格代码，无需二次制表。

对于财务、运营、数据分析等经常处理报表的岗位，这能节省大量时间。

手写公式识别

能将手写或打印的公式截图准确地转换成 LaTeX 格式，保留上下标、分式、根号等复杂结构。

对于理工科师生和科研人员，这简直是“解放生产力”的神器。

信息结构化提取

支持通过 JSON Schema 模板，从发票、证件、报关单等文档中自动提取关键字段并输出结构化 JSON 数据。

这对于需要对接业务系统、构建自动化流程的开发者来说，价值巨大。

批量处理与 RAG 支持

支持大批量文档解析，其高精度和规整的输出格式，非常适合作为检索增强生成（RAG）系统的前置文档解析模块，为上层大模型提供高质量的“燃料”。

💻 使用体验：本地与云端部署

GLM-OCR 提供了多种灵活的接入方式，无论是开发者还是普通用户，都能找到适合自己的玩法。

本地/私有化部署：支持 vLLM、SGLang、Ollama多种主流框架。对于注重数据隐私或有本地化部署需求的用户，非常友好。

云端 API 调用：智谱开放平台提供了标准的 API 接口，按量计费，接入成本和使用门槛都很低。

本地安装

# Install from source
git clone https://github.com/zai-org/glm-ocr.git
cd glm-ocr
uv venv --python 3.12 --seed && source .venv/bin/activate
uv pip install -e .
# Install transformers from source
uv pip install git+https://github.com/huggingface/transformers.git


# Parse a single image
glmocr parse examples/source/code.png


# Parse a directory
glmocr parse examples/source/


# Set output directory
glmocr parse examples/source/code.png --output ./results/


# Use a custom config
glmocr parse examples/source/code.png --config my_config.yaml


# Enable debug logging with profiling
glmocr parse examples/source/code.png --log-level DEBUG


from glmocr import GlmOcr, parse


# Simple function
result = parse("image.png")
result = parse(["img1.png", "img2.jpg"])
result = parse("https://example.com/image.png")
result.save(output_dir="./results")


# Note: a list is treated as pages of a single document.


# Class-based API
with GlmOcr() as parser:
    result = parser.parse("image.png")
    print(result.json_result)
    result.save()

开源社区

1.开源地址
Github：https://github.com/zai-org/GLM-OCR
Hugging Face：https://huggingface.co/zai-org/GLM-OCR

2.模型API
智谱开放平台：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr
特惠尝鲜礼包上线，2.9元享5000万Tokens：https://bigmodel.cn/special_area
Z.ai：https://docs.z.ai/guides/vlm/glm-ocr

3.在线体验
Z.ai：https://ocr.z.ai

👍 为什么推荐它？

结合我自己的感受，推荐 GLM-OCR 的理由主要有以下几点：

开源免费，自主可控：基于 Apache-2.0 license 协议开源，个人和企业都可以免费使用、二次开发和商用。

性能强劲，性价比高：0.9B 的小参数，却在多个权威榜单上取得了顶尖成绩，真正做到了“小而美”。

同时，无论是本地部署的成本还是云端 API 的定价，都极具竞争力。

场景覆盖广，实用性强：从日常办公到科研学习，从简单识别到复杂结构化提取，GLM-OCR 都能提供出色的支持，具有很强的通用性。

工程友好，易于集成：提供了完整的 SDK 和推理工具链，支持多种主流部署方式，无论是开发者还是普通用户，都能快速上手。

国产模型，本土化优势：对于中文用户来说，GLM-OCR 在处理中文文档、票据等本土化场景时，具有天然的优势。

🎯 最后

GLM-OCR 的出现，为 OCR 领域带来了一股新的活力。

“小身材”撬动了“高精度”，用“开源”降低了技术门槛，让更多人能够享受到 AI 带来的便利。

谢谢你看我的文章，既然看到这里了，如果觉得不错，随手点个赞、转发、在看三连吧，感谢感谢。那我们，下次再见。

您的一键三连，是我更新的最大动力，谢谢

山水有相逢，来日皆可期，谢谢阅读，我们再会

我手中的金箍棒，上能通天，下能探海