智谱GLM-5.1悄悄上线了。没有特别大张旗鼓的发布会,但一放出测评数据,不少做开发、做AI工具的朋友都被惊到了——整体能力几乎摸到了当前第一梯队大模型的水准。
官方文档:docs.bigmodel.cn
先说说它最硬核的地方
作为一个主打代码与复杂任务的模型,GLM-5.1这次最直观的提升,就是在各项权威基准测试上的表现。
- SWE-bench-Verified 得分 77.8
- Terminal Bench 2.0 得分 56.2
在开源模型里,这两个分数基本坐稳了第一梯队,尤其在编程相关的任务上,官方给出的对比显示,编程能力已经非常接近 Claude Opus 4.6,比上一代GLM-5直接提升近10分,对日常写代码、改bug、做工程化任务来说,感知非常明显。
另外几个Agent相关场景也很能打:
- BrowseComp 联网检索:开源模型里表现靠前
- MCP-Atlas 复杂工具调用:优势很明显
- τ²-Bench 多工具统筹执行:同样名列前茅
对开发者很友好的一点是,它直接拉满了上下文能力: 200K上下文窗口 + 128K输出长度,读大型代码库、梳理项目结构、批量重构、长文档拆解,基本不用再担心截断问题。
💥 评分封神!全网直接炸锅
官方发出了 Coding Evaluation 评测结果,编程能力比上一代GLM-5直接涨了快10分!更绝的是,跟全球最强编程模型Claude Opus 4.6 对比,分数基本持平!
虽说榜单上对比的模型不多,但网友的脑补能力那可不是盖的,瞬间就炸锅了🥳:“既然评分都快贴到 Opus 脸上了,那是不是意味着,它已经持平甚至超过Opus 4.6的Sonnet4.6了?”
案例一:AI 数字人实时交互前端(科技感拉满)
在我们公司的内部网站,需要一个 AI 3D 数字人,如果自己去实现的话肯定需要好几天,所以我把具体要求直接扔给 GLM-5.1
- 亮点:前端内置 3D 数字人,能听语音、回答问题、做动作,全程在浏览器跑。
- 技术栈:Three.js / Ready Player Me / Live2D**
- Web Speech API + 大模型接口
- 广告卖点:你的专属 AI 助手
- 零下载,浏览器直接对话
- 表情、动作、语音同步 **
** - 适合:科技公司、AI 平台、智能硬件广告。
你可以问她问题、跟她互动、改变她的心情、让她讲个笑话等等等等,非常有趣!
案例二:工作中的小工具
不止是玩,我们内部也已经把 GLM-5.1 用到日常开发里。
比如做一个首页天气展示组件,直接这样描述需求:
你化身苹果UI设计师,按照iOS 18风格,做一个带交互动效的横版天气卡片,一行放晴天、大风、暴雨、暴雪四种样式,纯原生实现,不要外部资源,输出单文件HTML。
或者做一个抽奖转盘:
做一个6格抽奖转盘网页,点击旋转后缓慢停止,指针和结果对应,输出可直接运行的单文件HTML。
实际跑出来的效果,基本一次成型,微调几下就能上线,对前端效率提升很明显。
网友实测真的很卷:从反编译到做游戏
光看跑分有点虚,看看大家实际玩出来的效果,反而更直观。
- 有人直接用它反编译代码,能还原出结构清晰、可直接使用的源码
- YouTube 博主 @AICodeKing 用它快速生成了宝可梦小游戏
- 室内设计平面图,厨房、客厅、卧室动线和布局都能合理规划
- 可交互国际象棋网页、甚至在线版“我的世界”,镜头移动流畅,还能自动补全未显示区域
从这些例子能明显感觉到两个特点:
- 空间一致性强:场景、视角、交互逻辑统一,不会前后矛盾
- 动态补全能力好:能顺着现有内容继续扩展,适合做连续生成类项目
身边甚至有朋友连夜用它搭了一版可交互的“我的世界”,效果完全不像快速搓出来的 demo,可见生成质量和逻辑稳定性确实上来了。
简单上手配置(写给想试试的同学)
GLM-5.1 已经可以接入 Claude Code**、OpenClaw 等平台,以 Claude Code 为例:
1. 修改配置文件
在终端打开:
vim ~/.claude/settings.json
加入或替换这段配置:
{
"env": {
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "GLM-4.5-air",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "GLM-5.1",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "GLM-5.1"
}
}
保存退出:Esc → :wq
2. 检查是否生效
新开终端,运行:
claude
然后输入:
/status
能看到模型信息,就说明切换成功了。
一点真实感受:迭代快到出乎意料
从 GLM-5 到 GLM-5.1,中间只隔了一个多月,这种迭代速度在国产大模型里确实少见。
它算不上“颠覆性换代”,更像是一次精准的强化升级: 稳定性更高、执行更流畅、处理复杂代码和长任务更靠谱,对程序员、产品、设计师这类高频使用AI的人来说,是那种“每天用都能感觉到变顺手”的提升。
刚开放时,GLM Coding Plan** 甚至一度被抢到手慢无,也能看出来市场对它的认可度。
如果你平时经常写代码、做项目梳理、长文本处理,GLM-5.1 确实值得一试,效率提升是实打实的。
官方文档:docs.bigmodel.cn