GLM-5.1开源，SWE-Bench Pro 登顶王座，老金帮你拆清楚今天刷到的消息，智谱昨儿开源了GLM-5.1。

今天刷到的消息，智谱昨儿开源了GLM-5.1。老金我看完数据，第一反应是：中国模型这次真的追上来了。

不是接近，不是有望。是 SWE-Bench Pro 上，直接超过了Opus 4.6。

先别急着喊NB。老金我帮你把数据、能力、价格全拆一遍。看完再判断值不值得用。

先说三个最炸的数据

SWE-Bench Pro 58.4分，全球第一这个测试测的是真实代码仓库里的Bug修复能力。之前第一名是Opus 4.6的57.3。 GLM-5.1直接干到58.4，超了1.1分。这是开源模型第一次站上这个位置。

Coding 45.3分，离Opus 4.6只差2.6分 Opus 4.6的编程综合分是47.9。 GLM-5.1拿到45.3，相当于Opus的94.6%。半年前这个差距还是两位数。现在只剩2.6分了。

8小时连续自治任务，全球首创你给它一个复杂任务，它能连续干8小时，中间不需要你插手。测试里它从零开始，8小时搭出了一个完整的Linux桌面Web应用。这是之前所有开源模型都做不到的事。

先说这三个数据意味着什么，再说价格。

GLM-5.1的核心参数： 754B参数量（MoE架构，多个小模型协同工作）实际激活40B参数（不是每次都用全部，按需调用）

200K上下文窗口（能记住很长的对话） MIT开源协议（商用免费）

架构上有两个亮点。

DSA稀疏注意力传统模型处理长文本时，会关注所有内容，很吃算力。 DSA让模型只关注真正相关的部分，省资源还更快。对长代码场景特别有用。

异步强化学习框架训练时模型可以同时学多个任务，不用排队等。智谱说迭代了600多次，性能提升了6倍。主要是向量数据库的检索效率优化。

这些技术名词看不懂没关系。你就记住一件事：同样的任务，GLM-5.1跑得更快、吃的Token更少。

这是很多人没注意到的。 GLM-5.1的API定价比上一代涨了10%。

缓存价格已经接近Claude Sonnet 4.6了。以前智谱最大的优势就是便宜。现在性能上来了，价格也跟上来了。

天天都是售罄状态，知道的都懂。截止发稿为止，它还在提示我的Pro，当前使用量大，无法正常使用。这个需求量说明一件事：开发者是真的在用。

如果你需要买的话，可以通过我的链接，立减 5%（这是通用的，谁都有。。）然后你自己抢不到的话，可以去海鲜市场找找，他们有办法。 👉立即参与「拼好模」：www.bigmodel.cn/glm-coding?…

如果对你有帮助，记得关注一波~

老金我得说实话。编程测试跑赢了，不代表全面超越。

GLM-5.1领先的 SWE-Bench Pro（代码Bug修复），Terminal-Bench 2.0（终端操作），NL2Repo（自然语言生成仓库）

Opus 4.6仍然领先的编程综合能力（47.9 vs 45.3），复杂推理任务，多模态理解

两者差不多的基础代码生成，代码解释，单文件修改

说句大白话：编程专项上，GLM-5.1确实猛。综合能力，Opus 4.6还是更稳。差距从以前的追不上变成了只差一点。这个变化速度才是最值得关注的。

智谱的股票已经突破了 4000亿市值，着实让人震惊！资本市场态度很明确：性能数据摆在那了。

Reddit的LocalLLaMA板块（全球开源模型社区）讨论很热。最高赞评论就一句："Where GLM 5.1 shines is coding." 翻译过来：GLM 5.1真正发光的地方是编程。

知乎上的讨论更直白：这是中国模型第一次在所有工程测试中通过。也是第一次超过Sonnet 4.5 Thinking。

说几个值得注意的事。

迭代数据要打折看 600次迭代这个数字很猛，但迭代不等于全部是有效改进。智谱没公布每次迭代的具体提升数据。 6倍性能提升的基线是什么，也没说清楚。这个数字看看就行，别太当真。

8小时自治要看场景 8小时自治任务听着NB，但测试用的是Linux桌面Web应用。换成你公司的业务代码、微服务架构，效果还得自己验证。别被Demo迷惑了。

价格涨了但性价比还在 Claude Sonnet 4.6的输入价格是 $3/百万Token。 GLM-5.1是$ 1.40，不到一半。虽然涨了10%，性价比的角度还是有优势。

如果你是独立开发者 GLM-5.1的性价比很高。编程专项能力强，价格不到Claude的一半。日常开发完全够用。

如果你是企业团队建议先拿非核心项目试一轮。编程专项强，但综合能力还差Opus一截。核心代码暂时别全押。

如果你主要用Claude Code 短期内不需要换。 Opus 4.6的综合能力还是更强。但可以关注GLM-5.1的生态发展，追得很快。

如果你关心开源生态 GLM-5.1值得star。 MIT协议，754B参数，性能进全球前三。中国开源模型第一次在这个级别站住了。

你们觉得GLM-5.1这次能不能真正改变格局？评论区聊聊，老金我很好奇你们怎么看。

飞书****开源知识库（实时更新 交流群**）：** tffyvtlai4.feishu.cn/wiki/OhQ8wq…

我的小破站（含我开源的项目）：www.aiking.dev/

每次我都想提醒一下，这不是凡尔赛，是希望有想法的人勇敢冲。我不会代码，我英语也不好，但是我做出来了很多东西。我真心希望能影响更多的人来尝试新的技巧，迎接新的时代。

谢谢你读我的文章。如果觉得不错，随手点个赞、在看、转发三连吧🙂 如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章。