视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外, 逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
今天,PPIO 派欧云重磅上线 VLM 大模型 GLM-4.1V-9B-Thinking,这是“大模型六小虎”之一的智谱于近期发布的最新模型。该模型以小博大,仅仅以 9B 的尺寸就登顶了 HuggingFace Trending 全球第一。
该模型的价格为,输入: ¥0.25/百万 tokens,输出: ¥1/百万 tokens,上下文窗口为64k。
如果你是 PPIO 新用户,官网注册填写邀请号**【JUEJIN】**还可以得 15 券。此外,通过你的专属邀请码每成功邀请一位好友并完成实名认证,还可以额外获得 30券。
1. 模型特点
GLM-4.1V-Thinking 是一款支持图像、视频、文档等多模态输入的通用推理型大模型,专为复杂认知任务设计。它在 GLM-4V 架构基础上引入“思维链推理机制(Chain-of-Thought Reasoning)”,采用“课程采样强化学习策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,系统性提升模型跨模态因果推理能力与稳定性。
其轻量版 GLM-4.1V-9B-Thinking 模型参数控制在 10B 级别,在兼顾部署效率的同时实现性能突破。该模型在 MMStar、MMMU-Pro、ChartQAPro、OSWorld 等 28 项权威评测中,有 23 项达成 10B 级模型的最佳成绩,其中 18 项更是持平或超越参数量高达 72B 的 Qwen-2.5-VL,充分展现了小体积模型的极限性能潜力。
与上一代的 CogVLM2 及 GLM-4V 系列模型相比,GLM-4.1V-Thinking 有如下改进:
- 系列中首个推理模型,不仅仅停留在数学领域,在多个子领域均达到世界前列的水平。
- 支持 64k 上下长度。
- 支持任意长宽比和高达 4k 的图像分辨率。
- 提供支持中英文双语的开源模型版本。
2. 如何在 PPIO 体验 GLM-4.1V-9B-Thinking?
到 PPIO派欧云官网注册后,找到模型广场下的 GLM-4.1V-9B-Thinking模型直接进行体验。
案例展示:
(1)当输入一张梗图,模型准确理解了笑点。
模型回答道:这种对比的笑点在于:考试进行到后期,因紧张、时间紧张、手忙脚乱等,笔迹越来越潦草,甚至最后自己都写“看不懂”,只能把字写成类似专业医疗信号的波形——用夸张的方式调侃“考试最后阶段字迹失控”这一考生的共鸣场景。
简单来说,这张图通过“笔迹从清晰一潦草一变成心电图”的戏剧化变化,幽默地表达了“考试时越写越潦草,甚至最后仿佛在‘画波形’”的自嘲感,让有类似考试经历的人会心一笑~
(2)做一道数学题:
模型经过三步计算,准确地得出了答案:
除了在 PPIO 模型广场直接体验,你也可以通过第三方应用来调用 PPIO API 的能力。目前 PPIO 支持在 20+ 主流平台中调用平台模型,比如CherryStudio、Chatbox、Cursor等等。