杀疯了!GLM-5.1 发布!编程效率提升300%!

0 阅读5分钟

智谱GLM-5.1悄悄上线了。没有特别大张旗鼓的发布会,但一放出测评数据,不少做开发、做AI工具的朋友都被惊到了——整体能力几乎摸到了当前第一梯队大模型的水准。 官方文档:docs.bigmodel.cn

先说说它最硬核的地方

作为一个主打代码与复杂任务的模型,GLM-5.1这次最直观的提升,就是在各项权威基准测试上的表现。

  • SWE-bench-Verified 得分 77.8
  • Terminal Bench 2.0 得分 56.2

在开源模型里,这两个分数基本坐稳了第一梯队,尤其在编程相关的任务上,官方给出的对比显示,编程能力已经非常接近 Claude Opus 4.6,比上一代GLM-5直接提升近10分,对日常写代码、改bug、做工程化任务来说,感知非常明显。

另外几个Agent相关场景也很能打:

  • BrowseComp 联网检索:开源模型里表现靠前
  • MCP-Atlas 复杂工具调用:优势很明显
  • τ²-Bench 多工具统筹执行:同样名列前茅

对开发者很友好的一点是,它直接拉满了上下文能力: 200K上下文窗口 + 128K输出长度,读大型代码库、梳理项目结构、批量重构、长文档拆解,基本不用再担心截断问题。

💥 评分封神!全网直接炸锅

官方发出了 Coding Evaluation 评测结果,编程能力比上一代GLM-5直接涨了快10分!更绝的是,跟全球最强编程模型Claude Opus 4.6 对比,分数基本持平!

虽说榜单上对比的模型不多,但网友的脑补能力那可不是盖的,瞬间就炸锅了🥳:“既然评分都快贴到 Opus 脸上了,那是不是意味着,它已经持平甚至超过Opus 4.6的Sonnet4.6了?”

案例一:AI 数字人实时交互前端(科技感拉满)

在我们公司的内部网站,需要一个 AI 3D 数字人,如果自己去实现的话肯定需要好几天,所以我把具体要求直接扔给 GLM-5.1

  • 亮点:前端内置 3D 数字人,能听语音、回答问题、做动作,全程在浏览器跑。
  • 技术栈:Three.js / Ready Player Me / Live2D**
  • Web Speech API + 大模型接口
  • 广告卖点:你的专属 AI 助手
  • 零下载,浏览器直接对话
  • 表情、动作、语音同步 **
    **
  • 适合:科技公司、AI 平台、智能硬件广告。

你可以问她问题、跟她互动、改变她的心情、让她讲个笑话等等等等,非常有趣!

案例二:工作中的小工具

不止是玩,我们内部也已经把 GLM-5.1 用到日常开发里。

比如做一个首页天气展示组件,直接这样描述需求:

你化身苹果UI设计师,按照iOS 18风格,做一个带交互动效的横版天气卡片,一行放晴天、大风、暴雨、暴雪四种样式,纯原生实现,不要外部资源,输出单文件HTML。

或者做一个抽奖转盘:

做一个6格抽奖转盘网页,点击旋转后缓慢停止,指针和结果对应,输出可直接运行的单文件HTML。

实际跑出来的效果,基本一次成型,微调几下就能上线,对前端效率提升很明显。

网友实测真的很卷:从反编译到做游戏

光看跑分有点虚,看看大家实际玩出来的效果,反而更直观。

  • 有人直接用它反编译代码,能还原出结构清晰、可直接使用的源码
  • YouTube 博主 @AICodeKing 用它快速生成了宝可梦小游戏
  • 室内设计平面图,厨房、客厅、卧室动线和布局都能合理规划
  • 可交互国际象棋网页、甚至在线版“我的世界”,镜头移动流畅,还能自动补全未显示区域

从这些例子能明显感觉到两个特点:

  • 空间一致性强:场景、视角、交互逻辑统一,不会前后矛盾
  • 动态补全能力好:能顺着现有内容继续扩展,适合做连续生成类项目

身边甚至有朋友连夜用它搭了一版可交互的“我的世界”,效果完全不像快速搓出来的 demo,可见生成质量和逻辑稳定性确实上来了。


简单上手配置(写给想试试的同学)

GLM-5.1 已经可以接入 Claude Code**、OpenClaw 等平台,以 Claude Code 为例:

1. 修改配置文件

在终端打开:

vim ~/.claude/settings.json

加入或替换这段配置:

{
  "env": {
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "GLM-4.5-air",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "GLM-5.1",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "GLM-5.1"
  }
}

保存退出:Esc → :wq

2. 检查是否生效

新开终端,运行:

claude

然后输入:

/status

能看到模型信息,就说明切换成功了。


一点真实感受:迭代快到出乎意料

从 GLM-5 到 GLM-5.1,中间只隔了一个多月,这种迭代速度在国产大模型里确实少见。

它算不上“颠覆性换代”,更像是一次精准的强化升级: 稳定性更高、执行更流畅、处理复杂代码和长任务更靠谱,对程序员、产品、设计师这类高频使用AI的人来说,是那种“每天用都能感觉到变顺手”的提升。

刚开放时,GLM Coding Plan** 甚至一度被抢到手慢无,也能看出来市场对它的认可度。

如果你平时经常写代码、做项目梳理、长文本处理,GLM-5.1 确实值得一试,效率提升是实打实的。

官方文档:docs.bigmodel.cn