智谱GLM-4.6V开源,原生识图+工具调用,还能“手眼通天”

103 阅读3分钟

就在昨晚,智谱开源了GLM-4.6V 模型。

128k 超长上下文(约等于150 页文档)

最大的亮点:原生支持视觉工具调用(Function Call)

不仅能看,还能动手干活

两个版本,丰俭由人:

• GLM-4.6V(106B-A12B):这是满血版,性能强悍,对标云端业务,支持高性能集群

• GLM-4.6V-Flash(9B):这是轻量版,跑得快,适合本地部署

价格方面:

相比上一代,直接降价 50%

输入:1 元 / 百万 token

输出:3 元 / 百万 token

Flash 版本:免费

以及,这次更新,唯一的重点

GLM-4.6V,打通了“视觉”和“工具”

以前的多模态模型是:我看图 -> 转成文字 -> 调工具 -> 给你结果。中间转来转去,信息全丢了。

GLM-4.6V 是原生的:图像即参数,结果即上下文

直接把图扔给工具,工具返回的图表、网页,模型也能直接看懂

从“看懂”到“执行”,一条龙搞定

评测数据,简单总结就是“以小博大”

在 MMBench、MathVista 等 30+ 评测基准上验证:

• 9B Flash 版本:整体干翻 Qwen3-VL-8B

• 106B 版本:跟参数量是它 2 倍的 Qwen3-VL-235B 打得有来有回

官方场景案例:

1. 图文混排神器:内容创作的福音

扔给它一个主题,或者一篇干巴巴的论文、研报

它不是简单的配图,而是真正理解了内容

模型能自己调搜索工具找图,还自带“审美”做视觉审核

最后采用“草稿 -> 选图 -> 润色”的流程,吐出一篇结构清晰、图文并茂的公众号文章或 PPT 素材

2. 识图购物 Agent:比你更懂全网低价

你在街上拍个好看的衣服,模型直接识别你的“剁手”意图

自动规划任务,调起 image_search 工具

它能处理京东、拼多多等不同平台的脏数据,自动清洗、对齐

最后甩给你一张带购买链接、价格对比和缩略图的 Excel 表格

3. 前端复刻:程序员狂喜

直接上传一张设计稿或者网页截图,模型直接生成 HTML/CSS/JS 代码

它支持“视觉交互调试”

你可以在生成的图上圈一下,说:“把这个按钮左移一点,换成深蓝色”

模型利用视觉反馈循环,自动定位代码并修正,像素级还原

4. 财报/长视频分析:过目不忘

128k 上下文不是摆设,大概能塞进 150 页文档或 1 小时视频

一次扔进去 4 家上市公司的财报,它能跨文档提取核心指标,生成对比表

或者扔进一场足球比赛录像,它能精准定位进球时刻,生成集锦时间轴,关键信息一个不漏

这次智谱很敞亮,权重、代码全放出来了。

支持 vLLM、SGLang、Transformers 等主流框架,国产卡(NPU)也支持

GitHub👉github.com/zai-org/GLM…

Hugging Face👉huggingface.co/collections…

魔搭 ModelScope👉modelscope.cn/collections…

在线体验👉z.ai (选 GLM-4.6V)或者智谱清言 APP

如果你也对AI感兴趣,想拥抱AI,不妨可以来看看我们的AI超级个体知识库👇 免费的!

二维码

AI超级个体知识库

hyperspace.feishu.cn/wiki/SpRGwQ…