图像+文档+视频，从理解到思考，GLM-4.1V-9B-Thinking 引领多模态推理新范式2025 年 7 月 2

2025 年 7 月 2 日，智谱 AI 联合清华大学团队发布开源视觉语言模型 GLM-4.1V-9B-Thinking，专为复杂认知与推理任务打造。该模型基于 GLM-4-9B-0414 基座模型，支持图像、视频、文档等多模态输入，采用创新的「思考范式」设计。

这款模型名字有点长，我们拆开来看：

GLM-4.1V → 新一代多模态模型框架
9B → 参数量约 90 亿，属于轻量级「实力派」
Thinking → 代表它在视觉理解中引入了链式思维推理，不止回答，还会「思考过程」

其核心技术亮点是引入课程采样强化学习，系统性提升模型在多阶段推理与理解任务中的表现。GLM-4.1V-9B-Thinking 在 18 个榜单任务中持平甚至超过 8 倍参数量的 Qwen-2.5-VL-72B，达到 10B 参数级别的视觉语言模型的最强性能。

本教程支持文本对话，图片、视频、PDF、PPT理解

教程链接：go.openbayes.com/qEjWR

使用云平台: OpenBayes

openbayes.com/console/sig…

首先点击「公共教程」，在公共教程中找到「一键部署 GLM-4.1V-9B-Thinking」，单击打开。

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。点击「继续执行」，等待分配资源。

数据和代码都已经同步完成了。容器状态显示为「运行中」后，点击「 API 地址」，即可进入模型界面。

若显示「Bad Gateway 」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

上传的视频最好不超过 10 秒，PDF 和 PPT 不超过 10 页，在对话过程中，视频和图片不能同时存在。建议每完成一次对话都点击「Clear」进行清除操作。

该模型支持文本对话，图片、视频、PDF、PPT 理解功能，下面是各功能展示 。

图片理解

上传图片到模型中，输入 Message「这个图片的主要内容是什么」，点击「Send」开始运行，可以看到模型很快给出了图片的主要内容，图片内容是卡通风格的小孩坐在秋千上。

文本对话

视频理解

PDF 理解

PPT 理解