2025 年 7 月 2 日,智谱 AI 联合清华大学团队发布开源视觉语言模型 GLM-4.1V-9B-Thinking,专为复杂认知与推理任务打造。该模型基于 GLM-4-9B-0414 基座模型,支持图像、视频、文档等多模态输入,采用创新的「思考范式」设计。
这款模型名字有点长,我们拆开来看:
- GLM-4.1V → 新一代多模态模型框架
- 9B → 参数量约 90 亿,属于轻量级「实力派」
- Thinking → 代表它在视觉理解中引入了链式思维推理,不止回答,还会「思考过程」
其核心技术亮点是引入课程采样强化学习,系统性提升模型在多阶段推理与理解任务中的表现。GLM-4.1V-9B-Thinking 在 18 个榜单任务中持平甚至超过 8 倍参数量的 Qwen-2.5-VL-72B,达到 10B 参数级别的视觉语言模型的最强性能。
本教程支持文本对话,图片、视频、PDF、PPT理解
使用云平台: OpenBayes
首先点击「公共教程」,在公共教程中找到「一键部署 GLM-4.1V-9B-Thinking」,单击打开。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。
数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「 API 地址」,即可进入模型界面。
若显示「Bad Gateway 」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。
上传的视频最好不超过 10 秒,PDF 和 PPT 不超过 10 页,在对话过程中,视频和图片不能同时存在。建议每完成一次对话都点击「Clear」进行清除操作。
该模型支持文本对话,图片、视频、PDF、PPT 理解功能,下面是各功能展示 。
图片理解
上传图片到模型中,输入 Message「这个图片的主要内容是什么」,点击「Send」开始运行,可以看到模型很快给出了图片的主要内容,图片内容是卡通风格的小孩坐在秋千上。
文本对话
视频理解
PDF 理解
PPT 理解