今天刷到的消息,智谱昨儿开源了GLM-5.1。 老金我看完数据,第一反应是:中国模型这次真的追上来了。
不是接近,不是有望。 是 SWE-Bench Pro 上,直接超过了Opus 4.6。
先别急着喊NB。 老金我帮你把数据、能力、价格全拆一遍。 看完再判断值不值得用。
先说三个最炸的数据
SWE-Bench Pro 58.4分,全球第一 这个测试测的是真实代码仓库里的Bug修复能力。 之前第一名是Opus 4.6的57.3。 GLM-5.1直接干到58.4,超了1.1分。 这是开源模型第一次站上这个位置。
Coding 45.3分,离Opus 4.6只差2.6分 Opus 4.6的编程综合分是47.9。 GLM-5.1拿到45.3,相当于Opus的94.6%。 半年前这个差距还是两位数。 现在只剩2.6分了。
8小时连续自治任务,全球首创 你给它一个复杂任务,它能连续干8小时,中间不需要你插手。 测试里它从零开始,8小时搭出了一个完整的Linux桌面Web应用。 这是之前所有开源模型都做不到的事。
先说这三个数据意味着什么,再说价格。
技术参数拆一下
GLM-5.1的核心参数: 754B参数量(MoE架构,多个小模型协同工作) 实际激活40B参数(不是每次都用全部,按需调用)
200K上下文窗口(能记住很长的对话) MIT开源协议(商用免费)
架构上有两个亮点。
DSA稀疏注意力 传统模型处理长文本时,会关注所有内容,很吃算力。 DSA让模型只关注真正相关的部分,省资源还更快。 对长代码场景特别有用。
异步强化学习框架 训练时模型可以同时学多个任务,不用排队等。 智谱说迭代了600多次,性能提升了6倍。 主要是向量数据库的检索效率优化。
这些技术名词看不懂没关系。 你就记住一件事:同样的任务,GLM-5.1跑得更快、吃的Token更少。
价格变了,涨了10%
这是很多人没注意到的。 GLM-5.1的API定价比上一代涨了10%。
缓存价格已经接近Claude Sonnet 4.6了。 以前智谱最大的优势就是便宜。 现在性能上来了,价格也跟上来了。
天天都是售罄状态,知道的都懂。 截止发稿为止,它还在提示我的Pro,当前使用量大,无法正常使用。 这个需求量说明一件事:开发者是真的在用。
如果你需要买的话,可以通过我的链接,立减 5%(这是通用的,谁都有。。) 然后你自己抢不到的话,可以去海鲜市场找找,他们有办法。 👉立即参与「拼好模」:www.bigmodel.cn/glm-coding?…
如果对你有帮助,记得关注一波~
和Opus 4.6的真实差距
老金我得说实话。 编程测试跑赢了,不代表全面超越。
GLM-5.1领先的 SWE-Bench Pro(代码Bug修复),Terminal-Bench 2.0(终端操作),NL2Repo(自然语言生成仓库)
Opus 4.6仍然领先的 编程综合能力(47.9 vs 45.3),复杂推理任务,多模态理解
两者差不多的 基础代码生成,代码解释,单文件修改
说句大白话: 编程专项上,GLM-5.1确实猛。 综合能力,Opus 4.6还是更稳。 差距从以前的追不上变成了只差一点。 这个变化速度才是最值得关注的。
市场反应很直接
智谱的股票已经突破了 4000亿 市值,着实让人震惊! 资本市场态度很明确:性能数据摆在那了。
Reddit的LocalLLaMA板块(全球开源模型社区)讨论很热。 最高赞评论就一句:"Where GLM 5.1 shines is coding." 翻译过来:GLM 5.1真正发光的地方是编程。
知乎上的讨论更直白: 这是中国模型第一次在所有工程测试中通过。 也是第一次超过Sonnet 4.5 Thinking。
老金的实话
说几个值得注意的事。
迭代数据要打折看 600次迭代这个数字很猛,但迭代不等于全部是有效改进。 智谱没公布每次迭代的具体提升数据。 6倍性能提升的基线是什么,也没说清楚。 这个数字看看就行,别太当真。
8小时自治要看场景 8小时自治任务听着NB,但测试用的是Linux桌面Web应用。 换成你公司的业务代码、微服务架构,效果还得自己验证。 别被Demo迷惑了。
价格涨了但性价比还在 Claude Sonnet 4.6的输入价格是1.40,不到一半。 虽然涨了10%,性价比的角度还是有优势。
谁适合用
如果你是独立开发者 GLM-5.1的性价比很高。 编程专项能力强,价格不到Claude的一半。 日常开发完全够用。
如果你是企业团队 建议先拿非核心项目试一轮。 编程专项强,但综合能力还差Opus一截。 核心代码暂时别全押。
如果你主要用Claude Code 短期内不需要换。 Opus 4.6的综合能力还是更强。 但可以关注GLM-5.1的生态发展,追得很快。
如果你关心开源生态 GLM-5.1值得star。 MIT协议,754B参数,性能进全球前三。 中国开源模型第一次在这个级别站住了。
你们觉得GLM-5.1这次能不能真正改变格局? 评论区聊聊,老金我很好奇你们怎么看。
飞书****开源知识库(实时更新 交流群**):** tffyvtlai4.feishu.cn/wiki/OhQ8wq…
Claude Code & Openclaw 双顶流全中文从零开始的教程:不懂代码照样造网站,老金15万字Claude Code+OpenClaw教程免费开源
我的小破站(含我开源的项目):www.aiking.dev/
每次我都想提醒一下,这不是凡尔赛,是希望有想法的人勇敢冲。 我不会代码,我英语也不好,但是我做出来了很多东西。 我真心希望能影响更多的人来尝试新的技巧,迎接新的时代。
谢谢你读我的文章。 如果觉得不错,随手点个赞、在看、转发三连吧🙂 如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。