大家好,我是小悟。
直接说正事,智谱把自家的新一代OCR模型 GLM-OCR 直接开源了,而且一上来就是“小身材、大能量”的路线。
参数只有0.9B,却在权威的 OmniDocBench V1.5 榜单上拿了 94.6 分,在文本、公式、表格、信息抽取这几项里都冲到了 SOTA。
🤯 痛点:传统OCR的“老大难”
用过传统OCR工具的朋友,大概率都遇到过这些场景:
扫描版PDF:稍微模糊一点,或者表格跨页,出来的结果就是一团乱码,不是缺行少列,就是数字对不上。
手写体:学生的作业、医生的处方,识别率直接“跳水”,最后还是得靠人肉校对。
复杂表格:合并单元格、多层表头,识别出来就是一维文本,想还原成可用的表格,得手动调整半天。
公式截图:好不容易拍清楚,OCR 出来的却是一串看不懂的符号,想转成 LaTeX 更是奢望。
印章与文本重叠:盖章文件要提取信息,常常被印章盖住关键字段,传统方法很难把两者干净地分开。
多语言混排:中英文、数字、符号挤在一起,识别结果经常出现“串台”的尴尬情况。
很多方案为了效果,模型动辄几个B、几十B的参数,部署起来对显卡和内存要求很高,普通开发者和小团队只能望而却步。
成本也是个现实问题,按量计费、并发限制,处理海量历史文档时,账单会让人心头一紧。
所以,当我看到 GLM-OCR 的参数和定位时,心里想的是:这模型,能顶。
🧠 GLM-OCR:麻雀虽小,五脏俱全
GLM-OCR 是智谱基于 GLM-V 系列“视觉编码器 + 语言解码器”思路,专门为文档理解打造的一款多模态OCR模型。它的核心特点可以概括为:小、准、全、快、便宜。
小:模型总参数约 0.9B(其中视觉编码器约 400M,语言解码器约 0.5B),体积和显存占用都控制得很好,普通显卡甚至 CPU 环境都有机会跑起来。
准:在 OmniDocBench V1.5 综合榜单上拿到 94.6 分,在文本、公式、表格、信息抽取等多个子任务中都达到了 SOTA 或接近 SOTA 的水平。
全:它不只是“识字”,而是能理解整个文档的版式。官方重点优化了六大真实业务场景:代码文档、复杂表格、手写体、多语言、印章识别、票据提取。
快:官方测试数据显示,单副本单并发下,处理 PDF 的吞吐量约 1.86 页/秒,处理图片约 0.67 张/秒,速度在同类小参数模型里很有竞争力。
便宜:官方 API 定价为 0.2 元/百万 Tokens,1 块钱大概能处理 2000 张 A4 扫描图或 200 份 10 页的 PDF,成本约为传统 OCR 方案的十分之一。
从技术架构上看,GLM-OCR 采用了“视觉编码器 → 跨模态连接层 → 语言解码器”的三级结构。
并引入了多 Tokens 预测损失(MTP)和全任务强化学习等训练策略,让模型在有限参数下也能学到更强的上下文理解和泛化能力。
🚀 核心功能:不止于“识字”
GLM-OCR 的功能覆盖了从简单识别到复杂理解的多个层次,实用性很强。
通用文本识别
支持照片、截图、扫描件、PDF 等多种输入,能较好地应对手写体、印章、代码截图等特殊内容。
对于学生、科研人员、程序员等需要数字化笔记或文档的人来说,非常友好。
复杂表格解析
能理解合并单元格、多层表头、斜线表头等复杂结构,并直接输出 HTML 表格代码,无需二次制表。
对于财务、运营、数据分析等经常处理报表的岗位,这能节省大量时间。
手写公式识别
能将手写或打印的公式截图准确地转换成 LaTeX 格式,保留上下标、分式、根号等复杂结构。
对于理工科师生和科研人员,这简直是“解放生产力”的神器。
信息结构化提取
支持通过 JSON Schema 模板,从发票、证件、报关单等文档中自动提取关键字段并输出结构化 JSON 数据。
这对于需要对接业务系统、构建自动化流程的开发者来说,价值巨大。
批量处理与 RAG 支持
支持大批量文档解析,其高精度和规整的输出格式,非常适合作为检索增强生成(RAG)系统的前置文档解析模块,为上层大模型提供高质量的“燃料”。
💻 使用体验:本地与云端部署
GLM-OCR 提供了多种灵活的接入方式,无论是开发者还是普通用户,都能找到适合自己的玩法。
本地/私有化部署:支持 vLLM、SGLang、Ollama多种主流框架。对于注重数据隐私或有本地化部署需求的用户,非常友好。
云端 API 调用:智谱开放平台提供了标准的 API 接口,按量计费,接入成本和使用门槛都很低。
本地安装
# Install from source
git clone https://github.com/zai-org/glm-ocr.git
cd glm-ocr
uv venv --python 3.12 --seed && source .venv/bin/activate
uv pip install -e .
# Install transformers from source
uv pip install git+https://github.com/huggingface/transformers.git
# Parse a single image
glmocr parse examples/source/code.png
# Parse a directory
glmocr parse examples/source/
# Set output directory
glmocr parse examples/source/code.png --output ./results/
# Use a custom config
glmocr parse examples/source/code.png --config my_config.yaml
# Enable debug logging with profiling
glmocr parse examples/source/code.png --log-level DEBUG
from glmocr import GlmOcr, parse
# Simple function
result = parse("image.png")
result = parse(["img1.png", "img2.jpg"])
result = parse("https://example.com/image.png")
result.save(output_dir="./results")
# Note: a list is treated as pages of a single document.
# Class-based API
with GlmOcr() as parser:
result = parser.parse("image.png")
print(result.json_result)
result.save()
开源社区
1.开源地址
Github:https://github.com/zai-org/GLM-OCR
Hugging Face:https://huggingface.co/zai-org/GLM-OCR
2.模型API
智谱开放平台:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr
特惠尝鲜礼包上线,2.9元享5000万Tokens:https://bigmodel.cn/special_area
Z.ai:https://docs.z.ai/guides/vlm/glm-ocr
3.在线体验
Z.ai:https://ocr.z.ai
👍 为什么推荐它?
结合我自己的感受,推荐 GLM-OCR 的理由主要有以下几点:
开源免费,自主可控:基于 Apache-2.0 license 协议开源,个人和企业都可以免费使用、二次开发和商用。
性能强劲,性价比高:0.9B 的小参数,却在多个权威榜单上取得了顶尖成绩,真正做到了“小而美”。
同时,无论是本地部署的成本还是云端 API 的定价,都极具竞争力。
场景覆盖广,实用性强:从日常办公到科研学习,从简单识别到复杂结构化提取,GLM-OCR 都能提供出色的支持,具有很强的通用性。
工程友好,易于集成:提供了完整的 SDK 和推理工具链,支持多种主流部署方式,无论是开发者还是普通用户,都能快速上手。
国产模型,本土化优势:对于中文用户来说,GLM-OCR 在处理中文文档、票据等本土化场景时,具有天然的优势。
🎯 最后
GLM-OCR 的出现,为 OCR 领域带来了一股新的活力。
“小身材”撬动了“高精度”,用“开源”降低了技术门槛,让更多人能够享受到 AI 带来的便利。
谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。
您的一键三连,是我更新的最大动力,谢谢
山水有相逢,来日皆可期,谢谢阅读,我们再会
我手中的金箍棒,上能通天,下能探海