今天看到一组数据,愣了几秒。
国产大模型编程能力,全球第一了。
具体什么情况
智谱 GLM-5.1 和阿里 Qwen3.6-Plus 前后脚发布,上来就是硬碰硬。
GLM-5.1 在 SWE-bench Pro 拿了 58.4%,开源模型里全球第一,Claude Opus 4.5 和 GPT-5.4 都被压在下面。
Qwen3.6-Plus 更狠,Terminal-Bench 2.0 和 OmniDocBench 两个榜单都是全球第一,中文编程场景直接屠榜。
这俩放一起看,国产模型从"追赶者"变成"领跑者"了。
价格才是真正的杀招
性能超了还不够,关键是便宜了多少。
Qwen3.6-Plus 的价格:输入约 2 元/百万 Token,输出约 10 元/百万 Token。
GPT-5.4:输入约 18 元,输出约 86 元。
算下来,Qwen3.6-Plus 是 GPT-5.4 的大约九分之一。
九倍的有效调用量,花一样的预算,团队里每个人都用得上,不心疼。
GLM-5.1 走的是另一条路——8 小时无中断自主执行,适合那种跑一个任务要人不守着、一口气干完的 Agent 场景。
选哪个
没有标准答案,看场景:
GLM-5.1 更适合长程任务,企业级项目扔进去让它自己跑,不用管。Qwen3.6-Plus 适合高频调用,调用次数多、每次任务短,费用一算下来差距更明显。
英文开源代码修复用 GLM-5.1,中文技术文档处理用 Qwen3.6-Plus,预算紧的团队无脑 Qwen3.6-Plus。
我的感受
国产模型这次不是"差不多能用"了,是真的在部分场景里领先了。
而且价格摆在那儿,OpenAI 的定价策略会受到多大冲击,接下来几个月会看得更清楚。
程序员选工具从来没这么纠结过,但这个纠结本身是个好信号——说明有得选了。
你平时用哪个?评论区说说。
#AI工具 #GLM-5.1 #Qwen3.6 #国产大模型 #程序员 #AI编程 #大模型评测
首发于公众号「赛博山海经」,每周实测AI工具,不玩虚的。 想收藏最全AI工具?回复「工具」获取导航页✨
参考来源: