国产大模型编程能力，首超 OpenAI 了今天看到一组数据，愣了几秒。国产大模型编程能力，全球第一了。具体什么情况

今天看到一组数据，愣了几秒。

国产大模型编程能力，全球第一了。

具体什么情况

智谱 GLM-5.1 和阿里 Qwen3.6-Plus 前后脚发布，上来就是硬碰硬。

GLM-5.1 在 SWE-bench Pro 拿了 58.4%，开源模型里全球第一，Claude Opus 4.5 和 GPT-5.4 都被压在下面。

Qwen3.6-Plus 更狠，Terminal-Bench 2.0 和 OmniDocBench 两个榜单都是全球第一，中文编程场景直接屠榜。

这俩放一起看，国产模型从"追赶者"变成"领跑者"了。

性能超了还不够，关键是便宜了多少。

Qwen3.6-Plus 的价格：输入约 2 元/百万 Token，输出约 10 元/百万 Token。

GPT-5.4：输入约 18 元，输出约 86 元。

算下来，Qwen3.6-Plus 是 GPT-5.4 的大约九分之一。

九倍的有效调用量，花一样的预算，团队里每个人都用得上，不心疼。

GLM-5.1 走的是另一条路——8 小时无中断自主执行，适合那种跑一个任务要人不守着、一口气干完的 Agent 场景。

新对话.png

没有标准答案，看场景：

GLM-5.1 更适合长程任务，企业级项目扔进去让它自己跑，不用管。Qwen3.6-Plus 适合高频调用，调用次数多、每次任务短，费用一算下来差距更明显。

英文开源代码修复用 GLM-5.1，中文技术文档处理用 Qwen3.6-Plus，预算紧的团队无脑 Qwen3.6-Plus。

AI价格对比图提示词.png

国产模型这次不是"差不多能用"了，是真的在部分场景里领先了。

而且价格摆在那儿，OpenAI 的定价策略会受到多大冲击，接下来几个月会看得更清楚。

程序员选工具从来没这么纠结过，但这个纠结本身是个好信号——说明有得选了。

你平时用哪个？评论区说说。

#AI工具 #GLM-5.1 #Qwen3.6 #国产大模型 #程序员 #AI编程 #大模型评测

首发于公众号「赛博山海经」，每周实测AI工具，不玩虚的。想收藏最全AI工具？回复「工具」获取导航页✨

参考来源：