能本地跑,复杂文档识别,0.9B小模型,GLM-OCR开源即巅峰(附源码)

0 阅读6分钟

大家好,我是小悟。

直接说正事,智谱把自家的新一代OCR模型 GLM-OCR 直接开源了,而且一上来就是“小身材、大能量”的路线。

参数只有0.9B,却在权威的 OmniDocBench V1.5 榜单上拿了 94.6 分,在文本、公式、表格、信息抽取这几项里都冲到了 SOTA。

图片

🤯 痛点:传统OCR的“老大难”

用过传统OCR工具的朋友,大概率都遇到过这些场景:

扫描版PDF:稍微模糊一点,或者表格跨页,出来的结果就是一团乱码,不是缺行少列,就是数字对不上。

手写体:学生的作业、医生的处方,识别率直接“跳水”,最后还是得靠人肉校对。

复杂表格:合并单元格、多层表头,识别出来就是一维文本,想还原成可用的表格,得手动调整半天。

公式截图:好不容易拍清楚,OCR 出来的却是一串看不懂的符号,想转成 LaTeX 更是奢望。

印章与文本重叠:盖章文件要提取信息,常常被印章盖住关键字段,传统方法很难把两者干净地分开。

多语言混排:中英文、数字、符号挤在一起,识别结果经常出现“串台”的尴尬情况。

很多方案为了效果,模型动辄几个B、几十B的参数,部署起来对显卡和内存要求很高,普通开发者和小团队只能望而却步。

成本也是个现实问题,按量计费、并发限制,处理海量历史文档时,账单会让人心头一紧。

所以,当我看到 GLM-OCR 的参数和定位时,心里想的是:这模型,能顶。

🧠 GLM-OCR:麻雀虽小,五脏俱全

GLM-OCR 是智谱基于 GLM-V 系列“视觉编码器 + 语言解码器”思路,专门为文档理解打造的一款多模态OCR模型。它的核心特点可以概括为:小、准、全、快、便宜。

小:模型总参数约 0.9B(其中视觉编码器约 400M,语言解码器约 0.5B),体积和显存占用都控制得很好,普通显卡甚至 CPU 环境都有机会跑起来。

准:在 OmniDocBench V1.5 综合榜单上拿到 94.6 分,在文本、公式、表格、信息抽取等多个子任务中都达到了 SOTA 或接近 SOTA 的水平。

全:它不只是“识字”,而是能理解整个文档的版式。官方重点优化了六大真实业务场景:代码文档、复杂表格、手写体、多语言、印章识别、票据提取。

快:官方测试数据显示,单副本单并发下,处理 PDF 的吞吐量约 1.86 页/秒,处理图片约 0.67 张/秒,速度在同类小参数模型里很有竞争力。

图片

便宜:官方 API 定价为 0.2 元/百万 Tokens,1 块钱大概能处理 2000 张 A4 扫描图或 200 份 10 页的 PDF,成本约为传统 OCR 方案的十分之一。

从技术架构上看,GLM-OCR 采用了“视觉编码器 → 跨模态连接层 → 语言解码器”的三级结构。

并引入了多 Tokens 预测损失(MTP)和全任务强化学习等训练策略,让模型在有限参数下也能学到更强的上下文理解和泛化能力。

🚀 核心功能:不止于“识字”

GLM-OCR 的功能覆盖了从简单识别到复杂理解的多个层次,实用性很强。

通用文本识别

支持照片、截图、扫描件、PDF 等多种输入,能较好地应对手写体、印章、代码截图等特殊内容。

对于学生、科研人员、程序员等需要数字化笔记或文档的人来说,非常友好。

图片

复杂表格解析

能理解合并单元格、多层表头、斜线表头等复杂结构,并直接输出 HTML 表格代码,无需二次制表。

对于财务、运营、数据分析等经常处理报表的岗位,这能节省大量时间。

图片

手写公式识别

能将手写或打印的公式截图准确地转换成 LaTeX 格式,保留上下标、分式、根号等复杂结构。

对于理工科师生和科研人员,这简直是“解放生产力”的神器。

图片

信息结构化提取

支持通过 JSON Schema 模板,从发票、证件、报关单等文档中自动提取关键字段并输出结构化 JSON 数据。

这对于需要对接业务系统、构建自动化流程的开发者来说,价值巨大。

图片

批量处理与 RAG 支持

支持大批量文档解析,其高精度和规整的输出格式,非常适合作为检索增强生成(RAG)系统的前置文档解析模块,为上层大模型提供高质量的“燃料”。

图片

💻 使用体验:本地与云端部署

GLM-OCR 提供了多种灵活的接入方式,无论是开发者还是普通用户,都能找到适合自己的玩法。

本地/私有化部署:支持 vLLM、SGLang、Ollama多种主流框架。对于注重数据隐私或有本地化部署需求的用户,非常友好。

云端 API 调用:智谱开放平台提供了标准的 API 接口,按量计费,接入成本和使用门槛都很低。

本地安装

# Install from source
git clone https://github.com/zai-org/glm-ocr.git
cd glm-ocr
uv venv --python 3.12 --seed && source .venv/bin/activate
uv pip install -e .
# Install transformers from source
uv pip install git+https://github.com/huggingface/transformers.git


# Parse a single image
glmocr parse examples/source/code.png


# Parse a directory
glmocr parse examples/source/


# Set output directory
glmocr parse examples/source/code.png --output ./results/


# Use a custom config
glmocr parse examples/source/code.png --config my_config.yaml


# Enable debug logging with profiling
glmocr parse examples/source/code.png --log-level DEBUG


from glmocr import GlmOcr, parse


# Simple function
result = parse("image.png")
result = parse(["img1.png", "img2.jpg"])
result = parse("https://example.com/image.png")
result.save(output_dir="./results")


# Note: a list is treated as pages of a single document.


# Class-based API
with GlmOcr() as parser:
    result = parser.parse("image.png")
    print(result.json_result)
    result.save()

开源社区

1.开源地址
Githubhttps://github.com/zai-org/GLM-OCR
Hugging Facehttps://huggingface.co/zai-org/GLM-OCR

2.模型API
智谱开放平台:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr
特惠尝鲜礼包上线,2.9元享5000Tokenshttps://bigmodel.cn/special_area
Z.ai:https://docs.z.ai/guides/vlm/glm-ocr

3.在线体验
Z.ai:https://ocr.z.ai

👍 为什么推荐它?

结合我自己的感受,推荐 GLM-OCR 的理由主要有以下几点:

开源免费,自主可控:基于 Apache-2.0 license 协议开源,个人和企业都可以免费使用、二次开发和商用。

性能强劲,性价比高:0.9B 的小参数,却在多个权威榜单上取得了顶尖成绩,真正做到了“小而美”。

同时,无论是本地部署的成本还是云端 API 的定价,都极具竞争力。

场景覆盖广,实用性强:从日常办公到科研学习,从简单识别到复杂结构化提取,GLM-OCR 都能提供出色的支持,具有很强的通用性。

工程友好,易于集成:提供了完整的 SDK 和推理工具链,支持多种主流部署方式,无论是开发者还是普通用户,都能快速上手。

国产模型,本土化优势:对于中文用户来说,GLM-OCR 在处理中文文档、票据等本土化场景时,具有天然的优势。

🎯 最后

GLM-OCR 的出现,为 OCR 领域带来了一股新的活力。

“小身材”撬动了“高精度”,用“开源”降低了技术门槛,让更多人能够享受到 AI 带来的便利。

图片

谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海