最强开源9B级VLM模型!本地视觉Agent有救了~

0 阅读9分钟

大家好,我是袋鼠帝。

今天一大早起来,刚打开微信,就发现智谱在直播,而且毫无预告。

智谱AI,又又又开源了个大模型!

添加图片注释,不超过 140 字(可选)

说实话,AI圈实在是太卷了,特别是国内的大模型厂商,几乎是贴身肉搏。

今天你发布一个新功能,明天我就开源一个新模型。

添加图片注释,不超过 140 字(可选)

作为AI领域的博主,我打字的速度,都快跟不上他们迭代的速度了..

先说说,智谱这次开源的模型叫GLM-4.1V-Thinking,是首个9B级别的通用多模态语言模型(VLM)

这应该是智谱目前开源的最小参数量的模型了。

而且这个9B参数量的模型,全面超越了传统的非推理式视觉模型

在28项评测任务中有23项登顶10B级别模型最佳性能,其中18项任务媲美、甚至超越其8倍参数量的Qwen-2.5-VL-72B。

添加图片注释,不超过 140 字(可选)

我心里其实点"免疫"了。

毕竟现在各种模型满天飞,"SOTA"、"最强"这些词我也快听出茧子了。

但当我实测,并研究了他们技术报告和开源资料后发现

次好像真的不太一样。

GLM-4.1V-Thinking在GUI Agents中的WebVoyageSom这一项测试中一骑绝尘

这项测试中,模型需要像人一样理解和操作网页界面来完成任务。

GLM-4.1V-Thinking在这项得分高达69.0,远超所有其他模型,包括 GPT-4o (35.0)。

这表明它在理解人类意图并将其转化为具体界面操作的能力上取得了重大进展。

后续我感觉完全可以用GLM-4.1V-Thinking来搭建一个本地自动化操作浏览器的Agent。

另外在VideoMME、MMVU、MVBench等多项视频理解评测中,GLM-4.1V-Thinking同样全面领先。

视频理解比静态图片更复杂,要求模型具备时序理解能力,特别是这个模型参数才9B,我感觉以后可以在本地进行实时的视觉理解了。

开源地址汇总 (方便大家直达):

Github:

github.com/THUDM/GLM-4…

ModelScope:

modelscope.cn/collections…

Hugging Face:

huggingface.co/collections…

HuggingFace体验地址:

huggingface.co/spaces/THUD…

魔搭社区体验地址:

modelscope.cn/studios/Zhi…

实测效果

目前GLM-4.1V-Thinking可以在智谱开放平台在线体验:

www.bigmodel.cn/trialcenter…

首先给我的第一感觉就是爽,因为非常快!

这样使用推理模型的感觉太爽了,不用等它吭哧吭哧推理半天才有结果

视频封面

上传视频封面

好的标题可以获得更多的推荐及关注者

而且上面给的Fastgpt操作路径也完全没毛病,我感觉后面可以让AI在本地自动帮我搭建知识库,上传资料啥的了。

然后我找出了一张,周末打车遇到的一个外国车牌

这个车+这个车牌,一看就相当nb,当时滴滴司机为了想追上去看看,差点跑错路..

添加图片注释,不超过 140 字(可选)

我把这张图丢给了GLM-4.1V-Thinking,让它分析一下这个车来自什么国家,车主人是什么身份。

添加图片注释,不超过 140 字(可选)

我感觉它除了车牌的含金量分析不太到位以外,其他的完全没毛病哎

这个车牌居然是泰国的,我第一次见。也合理,泰国离云南近

整个分析也挺详细,不错不错。

随后我又找了一个真实的体检报告单,丢给GLM-4.1V-Thinking进行识别和解读

添加图片注释,不超过 140 字(可选)

这张图清晰度也一般

但(下图)识别的结果非常准确,实际体验比GPT4o识别的还要更准。

还给出了一些中肯的营养摄入建议,作为一个只有9B参数量的小模型能做到这个程度,可以说非常nb了。

添加图片注释,不超过 140 字(可选)

下面这张图是我上上周,从北京飞回昆明时经过一个非常让我震感的地貌所拍摄的照片。

前面还一直是平原,到这里群山突然拔地而起,而且是一条直线,这种突然变换的地貌景观简直是一场视觉盛宴(我当时就非常好奇,这到底是哪儿啊)。

添加图片注释,不超过 140 字(可选)

要是当时我电脑上有本地部署的GLM-4.1V-Thinking就好了

下面是GLM-4.1V-Thinking给出的答案,我觉得应该是对的,因为前面一直都在一个黄沙遍地的平原上空飞行(估计是黄土高原)

有知道的朋友麻烦评论区告知一下

添加图片注释,不超过 140 字(可选)

如果它推测正确的话就太强了(大概率是对的)

我准备本地安装一个,以后坐飞机带上,哈哈哈

接下来难度升级,我把前几天爆火的谷歌gemini cli演示视频丢给它

这个视频我是真不太看得懂,主要的是各种操作太快了,而且是全英文,我根本来不及理解。

视频封面

关键是这个视频完全没有声音

而GLM-4.1V-Thinking作为一个9B模型能分析、总结的这么详细,我还挺意外的。

添加图片注释,不超过 140 字(可选)

我还记得在今年2、3月份使用这种10B的小模型,那时候体验真就是一tuo...

但是现在最新发布的一些小参数模型总是能给我带来一些惊喜

这导致我产生了一些好奇

它为什么能"以小博大"?

只有9B参数量的模型,视觉能力凭什么可以做到这么强?

技术解读

带着这点疑问,我花了不少时间,翻看了它的技术报告和开源资料

论文地址:

arxiv.org/abs/2507.01…

最终发现这背后,是智谱在模型架构和训练流程上的双重突破

模型的底层架构其实决定了它的能力上限。

GLM-4.1V-Thinking的架构基于视觉编码器(ViT Encoder)、多层感知机适配器(MLP Projector)以及语言解码器(Language Decoder)这三大核心部件。

并做了一些巧妙的优化。

添加图片注释,不超过 140 字(可选)

/ 1. 强视频理解能力

传统的视觉模型处理视频,很多时候就像在快速翻阅一张张静态截图。

而GLM-4.1V在视觉编码器中,用3D卷积替换了传统的2D卷积。

这带来了质变:模型不再是孤立地看每一帧,而是能捕捉帧与帧之间的时间动态,实现了2倍的时间压缩,极大提升了效率。

为了让模型精准理解"时间",它还为每一帧画面都插入了"时间戳标记"。

这让模型真正拥有了连贯的、带有时间概念的视频理解能力,看懂长达2小时的视频成为可能。

/ 2. 支持任意长宽比和4k的图像分辨率

你应该遇到过,想让AI分析一张超长的网页截图或4K高清大图,结果它却处理不了或效果很差。

GLM-4.1V通过两项技术解决了这个问题:

2D-RoPE位置编码:能稳定处理超过200:1这种极端宽高比的图片 。

动态位置嵌入插值:无论输入图片被切割成多少块,它都能通过"双三次插值"算法,动态、平滑地为每个图像块分配合适的位置信息,保留了原始ViT预训练的强大能力。

/ 3. 更强的多模态空间理解

不仅视觉能力强大,智谱还将这种空间理解能力扩展到了语言端,将语言解码器中的位置编码(RoPE)升级为3D-RoPE。

这极大地增强了模型在处理图文混排这种复杂多模态内容时的空间感知能力,同时完美保留了其纯文本处理的性能。

/ 4. 训练阶段

GLM-4.1V-Thinking 的训练过程分为三个阶段:预训练(Pretraining)、监督微调(SFT)和强化学习(RL)。

特别是在强化学习阶段采用了:课程采样强化学习(RLCS)

当中结合了两种方法:基于可验证奖励的强化学习(RLVR)和基于人类反馈的强化学习(RLHF),并覆盖多个关键任务维度。

就像是请了一个智能私教来进行考前辅导。私教不会胡乱塞题,而是先从简单的题让你入手,等你掌握了,再逐渐增加难度,针对性地让你刷更难的题。这种"循序渐进"的刷题方式效率最高,能让模型在准确性和稳定性上获得最大提升

添加图片注释,不超过 140 字(可选)

「最后」

测试完GLM-4.1V-Thinking,我最大的感受是:震撼且务实。

震撼在于,它只有9B的参数量,却有超强的视觉能力,核心是用更"聪明"的算法,弥补算力的不足。

务实在于,它所强化的能力,如视频理解、GUI Agent、图片理解等,都是直指真实世界复杂应用的。

这项能力让大模型不再是"玩具",而是真正能深入到各行各业,解决具体问题的生产力工具。

更大气的是,智谱又又又选择了全面开源。

这意味着,从今天起,任何一个开发者、AI爱好者或企业,都可以免费本地部署这个强大的模型,而且只需要少量算力成本。

也可以在它的基础上进行二次开发、微调,打造出属于自己的、适配特定业务的垂类应用~

能看到这里的都是凤毛麟角的存在!

如果觉得不错,随手点个赞、在看、转发三连吧~

如果想第一时间收到推送,也可以给我个星标⭐

谢谢你耐心看完我的文章~