智谱 GLM-5-Turbo 实测

0 阅读7分钟

智谱AI新推出了面向OpenClaw龙虾场景深度优化的GLM-5-Turbo。不同于常见的"通用模型加后期适配"路线,GLM-5-Turbo从训练阶段就针对龙虾任务的核心需求进行专项优化,增强工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力,定位为"龙虾增强模型"。我们对其商用版本GLM-5-Turbo进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

需要说明的是,本次评测侧重中文场景下的综合能力考察。GLM-5-Turbo的核心优化方向——包括OpenClaw龙虾场景下的复杂工具链调用、定时与持续性任务执行、多智能体协同分工以及高吞吐长链路处理等能力,在当前评测框架中未能充分体现。官方发布的ZClawBench基准显示,GLM-5-Turbo在龙虾场景中的表现相比GLM-5有显著提升,在多项关键任务上整体领先于多家主流模型。因此,本次中文综合评测的成绩更多反映的是其底层能力的基本面,而非其核心竞争力的全貌。

GLM-5-Turbo版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):71.5%
  • 平均耗时(每次调用):52s
  • 平均token(每次调用消耗的token):2934
  • 平均花费(每千次调用的人民币花费):60.8

1、新旧对决:速度翻倍背后的策略转向

对比 GLM-5 版本,GLM-5-Turbo在保持相近准确率的同时,响应速度实现了大幅提升,数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 整体性能基本持平:新版本准确率从71.0%微升至71.5%,提升了0.5个百分点,排名从第18位升至第16位。考虑到GLM-5-Turbo的优化方向是龙虾场景下的工具调用与长链路执行,这一微幅变化在预期之内。
  • 语言与指令遵从:从67.6%提升至69.3%(+1.7%),这与GLM-5-Turbo主打的"复杂指令拆解更强"定位相吻合,模型在理解和遵循复杂指令方面确有改善。
  • 推理与数学计算:从73.6%提升至74.8%(+1.2%),稳步提升。
  • Agent与工具调用:从64.2%微升至64.5%(+0.3%),基本持平。注意,GLM-5-Turbo在官方ZClawBench上的Agent能力提升显著,但该基准更侧重真实龙虾工作流中的工具链调用与多步执行,与本次评测框架中的Agent维度侧重点有所不同。
  • 法律与行政公务:从79.3%提升至80.3%(+1.0%),小幅改善。
  • 金融:从83.2%提升至83.9%(+0.7%),微幅变化。
  • 教育:从59.0%降至55.9%(-3.1%),出现一定回调,这可能与模型在训练阶段将更多资源倾斜至Agent相关能力有关。
  • 医疗与心理健康:从85.7%降至84.4%(-1.3%),略有下降。
  • 响应速度大幅提升:平均耗时从130s缩短至52s,提速约60%。作为一款以"Turbo"命名的模型,这一速度表现与其定位高度一致——在龙虾场景中,快速响应对于多步工具调用和长链路执行至关重要。
  • Token消耗与成本分析:平均Token消耗从3569降至2934(-17.8%),输出价格从18.0元/M token上调至22.0元/M token,每千次调用的费用从61.2元微降至60.8元,基本持平。Token消耗减少意味着模型输出更为精炼,尽管单价上调了约22%,但由于输出更简洁,总成本几乎没有变化。这种"更少token + 更高单价 = 总成本不变"的策略,反映出GLM-5-Turbo在输出效率上的优化思路。

2、横向对比:龙虾专属模型的综合竞争力

在当前主流大模型竞争格局中,GLM-5-Turbo作为一款面向OpenClaw龙虾场景优化的商用模型表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 高成本区间的竞争:GLM-5-Turbo的花费为60.8元/千次,处于50至65元的成本区间。在该档位中,GLM-4.7(71.5%,52.5元)以更低的成本实现了相同的准确率,成本效率比略优。而GLM-5(71.0%,61.2元)花费与GLM-5-Turbo几乎相当,但准确率略低0.5个百分点。
  • 向上看:成本更高的gpt-5.1-high(69.7%,180元)和gemini-2.5-pro(68.9%,189元)在准确率上反而不及GLM-5-Turbo,但这些模型的定位和优势领域各有不同。claude-opus-4.6(70.5%,96.5元)花费高出约60%,准确率却低了1.0个百分点。
  • 向下看:在更低的成本区间,Doubao-Seed-2.0-pro(76.5%,22.5元)、qwen3.5-plus(74.6%,22.9元)等模型在准确率上具备较大优势,且成本仅为GLM-5-Turbo的三分之一左右。不过,这些模型并非针对Agent场景专门优化,直接比较准确率意义有限。
  • 速度维度的差异化:GLM-5-Turbo的核心竞争力之一是速度。52s的平均耗时在同成本档位中具备一定优势,快于GLM-4.7(96s)和GLM-5(130s)。对于需要快速工具调用和多轮交互的龙虾场景,这一速度优势的实际价值大于准确率的微小差异。

新旧模型对比

  • 智谱产品线矩阵:从榜单来看,智谱AI目前形成了较为完整的产品线——GLM-5-Turbo(71.5%,第16位)与GLM-4.7(71.5%,第14位)并列为当前旗舰水准,GLM-5(71.0%,第18位)紧随其后,GLM-4.6(68.1%,第34位)则定位于上一代。而GLM-5-Turbo与GLM-4.7准确率完全相同,但定位截然不同:前者专攻龙虾场景,后者为通用开源旗舰。
  • 与其他厂商新模型的对比:在近期发布的新模型中,GLM-5-Turbo(71.5%)的准确率与Doubao-Seed-2.0-mini(71.8%)、doubao-seed-1-8-251215(71.7%)基本持平,但低于Doubao-Seed-2.0-pro(76.5%)、gemini-3.1-pro-preview(74.8%)、qwen3.5-plus(74.6%)等模型。不过,这些头部模型多为通用旗舰或深度推理定位,与GLM-5-Turbo的龙虾场景优化路线存在本质差异。
  • 榜单头部格局:当前榜单前三由Doubao-Seed-2.0-pro(76.5%)、gemini-3.1-pro-preview(74.8%)和qwen3.5-plus(74.6%)占据,均为各家最新一代旗舰模型。GLM-5-Turbo排名第16位,在通用中文能力上与头部存在一定差距,但其核心价值更多体现在龙虾生态中的专项能力。

开源VS闭源对比

  • 闭源定位的战略考量:GLM-5-Turbo是智谱近期少见的闭源模型。智谱以开源GLM系列著称,而此次选择闭源发布,与龙虾场景的商业化策略有关。不过官方表示,相关研究成果将集成到下一个开源模型中。
  • 与开源阵营的对比:同为智谱出品,开源的GLM-4.7(71.5%,52.5元)在准确率相同的情况下成本更低。在更广泛的开源阵营中,qwen3.5-plus(74.6%,22.9元)和Qwen3.5-122B-A10B(74.0%,32.3元)在准确率和成本上均具备优势。DeepSeek-V3.2-Think(70.9%,7.5元)则以极低的成本提供了接近的性能。
  • 生态价值补充:GLM-5-Turbo的核心价值并不在于通用评测跑分,而在于其作为龙虾生态原生模型的独特定位。200K上下文窗口、128K最大输出、原生思考模式、MCP支持等能力,使其在OpenClaw工作流中具备了其他通用模型难以替代的执行可靠性。这种"不卷通用跑分,专攻场景能力"的差异化路线,在当前同质化竞争中反而有独特的选择空间。

3、官方评测

随着OpenClaw龙虾的普及,智谱发布了龙虾场景端到端Agent评测基准 ZClawBench。官方指出,当前OpenClaw的任务类型覆盖安装配置、代码开发、信息搜集、数据分析、内容创作等多元化任务,用户群体也从早期的开发者扩展到效率办公人群、金融从业者、运维工程师、内容创作者与研究分析人员等。同时,Skills的使用比例在短时间内从26%快速增长至45%,表明Agent能力正向模块化与技能化的生态方向演进。

基于ZClawBench的评测结果显示,GLM-5-Turbo在OpenClaw场景中的表现相比GLM-5提升显著,在多项关键任务上整体领先于多家主流模型。