智谱GLM-4.6V开源，原生识图+工具调用，还能“手眼通天”就在昨晚，智谱开源了GLM-4.6V 模型。 128k 超

就在昨晚，智谱开源了GLM-4.6V 模型。

128k 超长上下文（约等于150 页文档）

最大的亮点：原生支持视觉工具调用（Function Call）

不仅能看，还能动手干活

两个版本，丰俭由人：

• GLM-4.6V（106B-A12B）：这是满血版，性能强悍，对标云端业务，支持高性能集群

• GLM-4.6V-Flash（9B）：这是轻量版，跑得快，适合本地部署

价格方面：

相比上一代，直接降价 50%

输入：1 元 / 百万 token

输出：3 元 / 百万 token

Flash 版本：免费

以及，这次更新，唯一的重点

GLM-4.6V，打通了“视觉”和“工具”

以前的多模态模型是：我看图 -> 转成文字 -> 调工具 -> 给你结果。中间转来转去，信息全丢了。

GLM-4.6V 是原生的：图像即参数，结果即上下文

直接把图扔给工具，工具返回的图表、网页，模型也能直接看懂

从“看懂”到“执行”，一条龙搞定

评测数据，简单总结就是“以小博大”

在 MMBench、MathVista 等 30+ 评测基准上验证：

• 9B Flash 版本：整体干翻 Qwen3-VL-8B

• 106B 版本：跟参数量是它 2 倍的 Qwen3-VL-235B 打得有来有回

官方场景案例：

1. 图文混排神器：内容创作的福音

扔给它一个主题，或者一篇干巴巴的论文、研报

它不是简单的配图，而是真正理解了内容

模型能自己调搜索工具找图，还自带“审美”做视觉审核

最后采用“草稿 -> 选图 -> 润色”的流程，吐出一篇结构清晰、图文并茂的公众号文章或 PPT 素材

2. 识图购物 Agent：比你更懂全网低价

你在街上拍个好看的衣服，模型直接识别你的“剁手”意图

自动规划任务，调起 image_search 工具

它能处理京东、拼多多等不同平台的脏数据，自动清洗、对齐

最后甩给你一张带购买链接、价格对比和缩略图的 Excel 表格

3. 前端复刻：程序员狂喜

直接上传一张设计稿或者网页截图，模型直接生成 HTML/CSS/JS 代码

它支持“视觉交互调试”

你可以在生成的图上圈一下，说：“把这个按钮左移一点，换成深蓝色”

模型利用视觉反馈循环，自动定位代码并修正，像素级还原

4. 财报/长视频分析：过目不忘

128k 上下文不是摆设，大概能塞进 150 页文档或 1 小时视频

一次扔进去 4 家上市公司的财报，它能跨文档提取核心指标，生成对比表

或者扔进一场足球比赛录像，它能精准定位进球时刻，生成集锦时间轴，关键信息一个不漏

这次智谱很敞亮，权重、代码全放出来了。

支持 vLLM、SGLang、Transformers 等主流框架，国产卡（NPU）也支持

GitHub👉github.com/zai-org/GLM…

Hugging Face👉huggingface.co/collections…

魔搭 ModelScope👉modelscope.cn/collections…

在线体验👉z.ai (选 GLM-4.6V)或者智谱清言 APP

如果你也对AI感兴趣，想拥抱AI，不妨可以来看看我们的AI超级个体知识库👇 免费的！

二维码

AI超级个体知识库

hyperspace.feishu.cn/wiki/SpRGwQ…