智谱 GLM-5 实测

0 阅读6分钟

智谱AI在春节前夕正式发布了新一代旗舰模型GLM-5。官方定位为面向”复杂系统工程与长程智能体任务”的开源模型,在编程与Agent能力上实现了开源模型SOTA。我们对GLM-5与GLM-4.7两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

需要特别说明的是,GLM-5官方主打的是编程与Agent能力,而此次评测侧重于中文综合能力场景。模型在不同评测维度上可能呈现不同的特点,建议读者结合自身使用场景综合判断。

GLM-5版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):71.0%
  • 平均耗时(每次调用):130s
  • 平均token(每次调用消耗的token):3569
  • 平均花费(每千次调用的人民币花费):61.2

1、新旧版本对比

首先对比上个版本(GLM-4.7),数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 整体准确率略有下降:新版本准确率从71.5%降至71.0%,下降了0.5个百分点,排名从第6位下滑至第9位。考虑到GLM-5的核心定位是编程与Agent任务,这一变化在预期范围内。
  • 部分领域显著提升:从细分来看,新版本在”教育”领域表现亮眼,从52.0%大幅提升至59.0%,增幅达7.0个百分点。“医疗与心理健康”领域也有明显提升,从83.6%增至85.7%(+2.1%),表明模型在知识密集型任务上有所强化。
  • 数学推理能力小幅提升:“推理与数学计算能力”从72.7%提升至73.6%(+0.9%),与官方强调的推理能力提升方向一致。
  • 部分能力出现分化:值得注意的是,“agent与工具调用”能力从68.1%降至64.2%(-3.9%),“语言与指令遵从”从69.3%降至67.6%(-1.7%),“金融”从84.2%降至83.2%(-1.0%)。这与官方宣称的Agent能力提升形成对比。
  • 响应时间明显增加:每次调用的平均耗时从96s大幅增加至130s,增幅约35%,这与模型参数规模从355B扩展至744B有直接关系。
  • Token消耗有所优化:尽管响应时间增加,每次调用平均消耗的token从3922降至3569,减少约9%。
  • 调用成本上升:由于输出价格从14.0元/M token上调至18.0元/M token,每千次调用的费用从52.5元增加至61.2元,增幅约16.6%。

2、对比其他模型

在当前主流大模型竞争格局中,GLM-5表现如何?我们选择了具有代表性的模型进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 高成本档位竞争激烈:GLM-5以61.2元/千次的成本在榜单中处于较高水平,与qwen3-235b-a22b-thinking-2507(61.2元,65.5%)成本相同但准确率更高。在相近成本区间,gpt-5.2-high(94.1元,67.4%)和claude-opus-4.6(96.5元,70.5%)成本更高但准确率接近或略低。
  • 中低成本档位选择丰富:准确率相近的doubao-seed-1-8-251215(71.7%)成本仅7.3元/千次,doubao-seed-1-6-thinking-250715(71.7%)成本为15.6元/千次,在成本敏感场景下更具竞争力。
  • 智谱产品线内部对比:GLM-4.7以52.5元/千次的成本实现了71.5%的准确率,在当前评测维度下成本效率比优于GLM-5,用户可根据具体场景选择。

新旧模型迭代对比

  • 与其他厂商新模型对比:近期各厂商发布的新模型中,qwen3-max-think-2026-01-23以72.8%位居榜首,gemini-3-pro-preview以72.5%紧随其后,hunyuan-2.0-thinking-20251109达到71.9%。GLM-5的71.0%在新模型中处于前列。
  • 行业迭代趋势:从榜单可以看出,国产大模型正加速向编程与Agent能力方向演进。豆包、混元、Kimi等厂商纷纷推出thinking系列模型,GLM-5主打的”Agentic Engineering”定位正是这一趋势的体现。本次评测侧重中文场景,未能充分展现GLM-5在编程与Agent场景的优势。

开源VS闭源对比

  • 开源模型竞争格局:GLM-5作为开源模型,其71.0%的准确率在开源阵营中处于前列。同为开源的Kimi-K2.5-Thinking(71.3%)、DeepSeek-V3.2-Think(70.9%)等模型各有特色。
  • 闭源模型成本分化明显:闭源模型呈现两极分化态势。一方面,doubao-seed-1-6-thinking-250715(71.7%)以7.3元/千次的超低成本展现极致成本效率比;另一方面,gpt-5.1-high(69.7%)、claude-opus-4.6(70.5%)等海外模型成本高达80-180元/千次。
  • 开源部署优势:GLM-5遵循MIT License开源,支持本地部署,已适配vLLM、SGLang等主流推理框架。对于高频调用或数据安全敏感的企业用户,本地部署可显著降低长期成本。

3、官方评测

根据智谱官方发布的技术博客(z.ai/blog/glm-5)…

模型架构升级

GLM-5相比GLM-4.5实现了显著的架构升级:参数规模从355B(激活32B)扩展至744B(激活40B),预训练数据从23T提升至28.5T tokens。模型采用MoE(混合专家)架构,并首次集成DeepSeek Sparse Attention(DSA),在维持长文本效果的同时大幅降低部署成本。

编程能力评测

GLM-5 在编程领域实现了与 Claude Opus 4.5 的实力对齐,在多项业内公认的主流基准测试中拿下开源 SOTA。具体来看,它在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别取得了 77.8 和 56.2 的高分,性能表现超越了 Gemini 3 Pro。

在内部的 Claude Code 评估集中,GLM-5 在前端、后端开发及长线任务上的表现远超 GLM-4.7(平均提升超 20%)。它能以极低的人工干预,自主完成 Agentic 长程规划、后端重构及深度调试等系统工程任务,使用手感与 Opus 4.5 极为接近。

Agent能力评测

GLM-5 在智能体(Agent)领域同样摘得开源 SOTA 桂冠,在多个评测基准中位列第一:包括联网检索与信息理解(BrowseComp)、工具调用和多步执行(MCP-Atlas)以及复杂多工具场景下的规划执行(τ²-Bench)。

在考察模型经营能力的 Vending Bench 2 测试中,GLM-5 斩获开源模型第一。该测试要求模型模拟经营一年的自动售货机业务,GLM-5 最终账户余额达到 4432 美元,展现出逼近 Claude Opus 4.5 的长期规划与资源调度能力。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear