智谱在GLM-5发布不到两个月后,迅速推出了迭代版本GLM-5.1。官方将其定位为"面向长程任务的开源第一模型",核心升级方向集中在代码工程能力和长程Agent任务上——GLM-5.1能够在单次任务中独立、持续工作超过8小时,在SWE-Bench Pro等代码基准上取得了全球模型第三、开源模型第一的成绩。我们对其API版本GLM-5.1进行了全面评测,测试其在准确率、响应时间、token消耗和花费等关键指标上的表现。
需要说明的是,本次评测侧重中文场景下的综合能力考察。GLM-5.1此次迭代的核心发力点——8小时级长程代码工程、SWE-Bench Pro实战修Bug、从零构建完整代码仓库等能力,在当前评测框架中并未得到充分体现。对这些能力感兴趣的读者,可参考文末的官方评测数据获得更全面的了解。
GLM-5.1版本表现:
- 测试题数:约1.5万
- 总分(准确率):74.2%
- 平均耗时(每次调用):183s
- 平均token(每次调用消耗的token):3241
- 平均花费(每千次调用的人民币花费):73.8
1、新旧对决
对比上一代版本(GLM-5),GLM-5.1在多个维度上实现了能力提升,但也伴随着响应时间和成本的上涨,数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
- 整体性能提升:新版本准确率从71.0%提升至74.2%,提升了3.2个百分点,排名从第19位升至第4位,进入榜单头部。
- 推理与数学计算提升幅度最大:从73.6%提升至82.8%(+9.2%),这一维度的进步最为突出,与GLM-5.1主打的深度推理方向高度一致。
- Agent与工具调用显著增强:从64.2%提升至71.7%(+7.5%),与官方强调的长程Agent任务能力形成呼应。
- 法律与行政公务稳步提升:从79.3%提升至81.7%(+2.4%),属于小幅改善。
- 教育领域略有提升:从59.0%提升至61.1%(+2.1%)。
- 金融与医疗保持稳健:金融从83.2%提升至85.2%(+2.0%),医疗与心理健康从85.7%提升至86.6%(+0.9%),均保持了较高水准。
- 语言与指令遵从出现回调:值得注意的是,该维度从67.6%下降至62.2%(-5.4%),是唯一出现下降的领域。这可能与模型在强化推理链路时,在指令格式遵从上产生了一定的权衡取舍有关。
- 响应时间明显延长:平均耗时从130s增加至183s,增幅约41%。
- Token消耗与成本分析:平均Token消耗从3569降至3241,减少了约9.2%,但输出价格从18.0元/M token上调至24.0元/M token(+33.3%),导致每千次调用的费用从61.2元增加至73.8元,成本上涨约20.6%。
2、横向对比
在当前主流大模型竞争格局中,GLM-5.1作为智谱最新开源旗舰模型表现如何?我们从三个维度进行横向对比分析:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比
- 中高成本区间的竞争力:在花费60至80元/千次的区间内,GLM-5.1以74.2%的准确率和73.8元的花费,位列该档位的领先位置。同档位的Kimi-K2.5-Thinking(71.3%,77.1元)在准确率上低了2.9个百分点,且花费略高。GLM-5(71.0%,61.2元)作为上一代版本,虽然花费更低,但准确率存在3.2个百分点的差距。
- 向上看——更高成本档位:gpt-5.1-high(69.7%,180元)和claude-opus-4.6(70.5%,96.5元)虽然花费更高,但在当前中文场景下的准确率反而不及GLM-5.1,这在一定程度上体现了GLM-5.1在中文综合能力测试中的竞争力。
- 向下看——更低成本档位:值得关注的是,GLM-4.7(71.5%,52.5元)以更低的花费提供了与GLM-5.1相差不大的准确率。而Doubao-Seed-2.0-pro(76.5%,22.5元)和qwen3.5-plus(74.6%,22.9元)则在远低于GLM-5.1的成本水平上实现了相近甚至更高的准确率,成本效率比优势明显。
新旧模型对比
- 智谱产品线梯队清晰:GLM-5.1(74.2%,第4位)领衔,GLM-5-Turbo(71.5%,第17位)和GLM-5(71.0%,第19位)紧随其后,GLM-4.7(71.5%,第15位)作为上一代产品仍保持竞争力,GLM-4.6(68.1%,第36位)则定位于入门级。从GLM-5到GLM-5.1,3.2个百分点的提升和15个名次的跃升,此次迭代在中文综合能力上取得了实质性的进步。
- 对比其他厂商的新模型:GLM-5.1(74.2%)超过了ERNIE-5.0(70.9%)、DeepSeek-V3.2-Think(70.9%)等厂商近期发布的新模型,但与榜首的Doubao-Seed-2.0-pro(76.5%)仍有2.3个百分点的差距,与qwen3.5-plus(74.6%)基本处于同一水平线。
- 榜单头部格局:当前榜单前四位分别为Doubao-Seed-2.0-pro(76.5%)、gemini-3.1-pro-preview(74.8%)、qwen3.5-plus(74.6%)和GLM-5.1(74.2%),头部竞争极为激烈,四者之间的差距仅为2.3个百分点。
开源VS闭源对比
- 开源阵营的新标杆:GLM-5.1以74.2%的总分位列开源模型第二,仅次于qwen3.5-plus(74.6%)。两者差距仅0.4个百分点,共同构成了开源阵营的第一梯队。
- 对闭源模型的施压:从总分来看,GLM-5.1已经超过了多个闭源商用模型,包括gemini-3-pro-preview(72.5%)、gpt-5.4-high(72.6%)、claude-opus-4.6(70.5%)、gpt-5.1-high(69.7%)等。开源模型在中文综合能力上对闭源模型的追赶态势已十分明显。
3、官方评测
GLM-5.1此次迭代的核心升级集中在代码工程能力和长程Agent任务两个方向,以下为官方公布的Benchmark数据。
编码能力
官方选取了业内最具代表性的三个代码评测基准进行综合评估,GLM-5.1取得全球模型第三、国产模型第一、开源模型第一的成绩。
具体来看:
- SWE-Bench Pro:衡量模型在真实GitHub仓库中定位并修复高难度工程Bug的能力。GLM-5.1得分58.4,全球最高,超过GPT-5.4(57.7)和Claude Opus 4.6(57.3)。
- NL2Repo:要求模型根据自然语言描述从零构建完整代码仓库,测试系统级工程能力。GLM-5.1得分42.7,对比GLM-5的35.9,提升19%。与Claude Opus 4.6(49.8)仍有7分差距。
- Terminal-Bench 2.0:让模型在真实终端环境中解决系统管理、运维和开发任务。GLM-5.1得分63.5,对比GLM-5的56.2。
- CyberGym:网络安全编码基准,要求完成渗透测试、漏洞分析等安全工程任务。GLM-5.1得分68.7,对比GLM-5的48.3,提升42%,是进步最大的单项。
智能体能力
- BrowseComp:测试模型通过自主浏览网页解决复杂信息检索问题的能力。GLM-5.1带上下文管理得分79.3。
- τ³-Bench:在模拟客服场景中测试对话式Agent的双向控制能力。GLM-5.1得分70.6。
- MCP-Atlas:衡量模型在多步骤工作流中调用外部工具(MCP服务器)的能力。GLM-5.1得分71.8。
-
Vending Bench 2:让模型经营一年的模拟自动售货机生意,测试长期规划和资源管理。GLM-5.1最终账户余额$5634.41,对比GLM-5的$4432.12。与Claude Opus 4.6($8017.59)仍有明显差距。
长程任务能力
GLM-5.1的核心差异化在于长程任务的执行能力。在METR榜单的同等评估标准下,GLM-5.1是唯一达到8小时级持续工作的开源模型。官方展示了三个典型场景:8小时从零构建Linux桌面系统、655次迭代优化向量数据库(查询吞吐从3108 QPS提升至21472 QPS)、1000轮工具调用优化50个真实机器学习模型负载(达到3.6倍加速比)。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear