国产 AI 再放大招!智谱开源 GLM-4.5V,视觉推理能力“屠榜”全球

73 阅读3分钟

国产 AI 这两个月的节奏,可以用四个字形容:不讲武德

上个月,智谱开源的 GLM-4.1V-Thinking 冲上 HuggingFace Trending 榜首,累计下载量突破 13 万次。 上周,又推出了旗舰多模态模型 GLM-4.5 和轻量版 GLM-4.5-Air,技术圈瞬间沸腾。

这周,智谱再次扔下“核弹”——基于 GLM-4.5-Air 架构,训练出更强大的视觉推理模型 GLM-4.5V,并且毫不犹豫地 全量开源

更夸张的是,在 42 个权威多模态榜单 中,GLM-4.5V 拿下了 41 项 SOTA(全球最佳) 。 一句话:在开源视觉推理领域,它几乎是无敌的存在。

01 GLM-4.5V 究竟强在哪?

如果说普通的视觉模型只是“看得清”,那 GLM-4.5V 则是“看得懂、想得通、还会自己动手”。

它的三个核心能力,让它不只是个识图工具,而更像一个拥有视觉和常识的大脑

① 多模态融合推理

能同时理解图像、文字、视频等多种信息,并在一个上下文中推理,这意味着它不仅能识别图片,还能结合文字背景得出更准确的结论。

类比一下,这就像一个工程师看图纸时,不仅看到了线条,还理解了设计目的,并能立即判断可行性。

② 长上下文记忆

可以连续处理数十张图片、几分钟视频或长文档,并保持逻辑一致,不会出现“前一句和后一句不沾边”的问题。 这对长流程的任务(比如视频内容分析、长文档解析)非常关键。

③ Grounding 精准定位

不只是说“这是一个猫”,而是能告诉你它在画面中的精确坐标,甚至能直接生成可用的标注文件,让 AI 从“感知”走向“可操作”。

02 模型规格:真正的 100B 级视觉推理猛兽

  • 总参数:106B
  • 激活参数:12B
  • 输入类型:图像 / 文本 / 视频

03 能力覆盖面有多广?

  • 图像推理:场景理解、多图分析、位置识别
  • 视频理解:长视频分镜、事件识别
  • GUI 任务:前端页面复刻、桌面操作辅助
  • 图表与文档解析:结构化提取、自动标注
  • Grounding 定位:精准框选视觉元素

简单来说,它既能帮你看懂一份复杂的财报图表,也能复刻一个网页 UI,甚至能像人类助手一样操作电脑界面。

04 桌面助手:多模态能力落地的“利器”

为了让开发者更快上手,智谱还同步开源了 GLM-4.5V 桌面助手,支持:

  • 实时截屏并分析
  • 获取屏幕信息
  • 基于视觉推理执行自动化任务

推荐阅读

软件测试/测试开发丨常见面试题与流程篇(附答案)

软件测试/测试开发丨学习笔记之Allure2测试报告

软件测试/测试开发丨Pytest测试用例生命周期管理-Fixture

软件测试/测试开发丨Python学习笔记之基本数据类型与操作

软件测试/测试开发丨学习笔记之列表、元组、集合

软件测试/测试开发丨Python常用数据结构-学习笔记

软件测试/测试开发丨Python控制流-判断&循环

软件测试/测试开发丨Python学习笔记之内置库科学计算、日期与时间处理

软件测试/测试开发丨面试题之软素质与反问面试官篇(附答案)

软件测试/测试开发丨iOS 自动化测试踩坑(一): 技术方案、环境配置与落地实践