开源界的“Claude Opus”?实测 GLM-5.1:能否在工程交付上实现反超?

0 阅读12分钟

20260415-180807.jpg

文章导读:

4 月 8 日,智谱正式开源 GLM-5.1,带来了一场极具方向性的范式革命——将 AI 的能力重心从“单次输出”转向了“长程任务的持续执行”,在 SWE-Bench Pro 等工程基准中登顶开源榜首。本文基于多维度实测,对比其与 Claude Opus 4.6 的表现;实测发现,GLM-5.1 最核心的蜕变在于具备了“自我校验与持续迭代”的工程化能力,进一步拓宽了国产开源模型的能力边界。

全文约 4500 字

4 月 8 日,智谱正式开源了 GLM 最新的 5.1 版本。GLM-5.1 是一次方向极其明确的版本更新——将模型的能力重心推向了一个具体问题:能否在长时间任务中持续工作,并且持续产生有效结果。

1. 性能之外:GLM-5.1 在解决什么

作为基于 GLM-5 后训练演进而来的旗舰模型,GLM-5.1 把重点放在了转向长时间任务中的有效性提升上。而从结果来看,这一方向已经带来了相当直接的性能回报。在最具代表性的工程类基准测试中,GLM-5.1 取得了目前开源模型中的顶级成绩:

在 SWE-Bench Pro 上以 58.4 分登顶,超过 GPT-5.4 与 Claude Opus 4.6;同时在 Terminal-Bench 2.0 与 NL2Repo 等任务中保持全球前三、开源第一的综合表现。 这意味着,在“真实软件工程问题”这一最接近生产环境的维度上,开源模型首次真正进入第一梯队。

2. 八小时能力:从演示到生产力

相比更强的代码生成能力,GLM-5.1 还有一个更值得关注的标签:长程任务(Long-Horizon Task)能力

不同于以往以分钟为单位的交互式调用,GLM-5.1 可以在单次任务中持续长时间运行,在数百到上千轮迭代中,自主完成“实验 → 分析 → 调整 → 再验证”的完整循环。这种能力在实测场景中被具体化:在没有明确评价指标的情况下,模型连续运行 8 小时,从零构建出了一个完整的 Web 版 Linux 桌面系统。

这体现出的是 GLM-5.1 与前代模型,甚至与一部分同级别模型之间最核心的差异——模型不再只是执行任务,而是开始具备把任务不断做好的能力。

3. 开源突破:重新定义技术边界

此外,作为一个采用 MIT 协议开源、并在编程基准上进入全球第一梯队的模型,GLM-5.1 也进一步压缩了开源与闭源之间的能力差距

一方面,它在编程这一高价值场景中,首次实现了对顶级闭源模型的单项超越;另一方面,模型完全基于国产算力训练完成,并许可证开源,在可用性与商业化路径上进一步降低门槛。

这使得 GLM-5.1 的影响不再局限于更强的国产模型,而是在于开源模型在关键能力维度上正重新定义技术边界。

接下来,302.AI将通过一系列案例,对其进行实测,看看它在真实开发场景中的表现究竟如何。

I. 实测模型基础信息

(1)测评目的:

本评测侧重模型对逻辑,数学,编程,多模态,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。

(2)测评方法:

本次测评使用302.AI收录的题库进行独立测试。模型分别就逻辑与数学(共10题),人类直觉(共7题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。

题库地址:docs.google.com/spreadsheet…

💡记分规则:

按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。

(3)测评工具:
  • 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果

  • 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒

编程案例分数评级:

⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。

⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。

⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。

⭐⭐及以下 C级(不合格): 不可用,存在明显问题。

II. 测试结果总览

302.AI 模型测评分数榜单:

III. 案例展示

案例 1:逻辑推理

实测过程发现,模型在关键决策节点会反复进行自我校验与路径修正,而不是一次性给出结论。

提示词

以下每一排的五个数字对应ABCDE:

第一排:79314,这一排中有一个数字是对的,但所处位置不对

第二排:95643,这一排中有两个数字是对的,但只有其中一个位置正确

第三排:57319,这一排中有两个数字是对的,且两个所处位置都正确

现在已知数字之和等于最后两位数字,即 (A+B + C + D +E=D*10+E),请推测出正确密码

答案:

Case A - 57620

Case B - 57628

GLM-5.1 完整推测出两种情况

GLM-5 只推测出了一种情况

案例 2:程序化 SVG 图形生成

提示词:绘制一个鹈鹕骑自行车的动态 SVG

GLM-5.1 绘制的图形构造已经没有太大问题,自行车结构也较为稳定,相对运动方向合理,但鹈鹕腿部与踏板连接问题仍未完美处理。

GLM-5 绘制的鹈鹕骑车,动态但原地踏步,运动状态实现较差,

附 Claude Opus 4.6 效果: 画面构成细节更丰富,但依然处理不好腿部和踏板连接问题。

提示词:绘制一副花田中的荷兰风车的svg动态图

GLM-5.1 的输出在视觉上独具氛围感,细看花田建模略草率,但加分点也很明确:三个风车的转动效果是错落呈现的。

GLM-5 输出的图形大部分由色块组成,效果较差。

附 Claude Opus 4.6 效果: 细节元素较齐全,视觉风格上略显粗糙。

测评点GLM-5.1GLM-5Claude Opus 4.6
语义表达准确度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
图形构造复杂度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
动态实现质量⭐⭐⭐⭐⭐⭐⭐⭐⭐

案例 3:网页制作

提示词:请帮我创建一个单页作品集网站(Portfolio Website),要求整体风格“优雅、现代、克制”,强调设计感与沉浸式体验,而不是功能堆砌。

【整体设计要求】

  • 风格关键词:Minimalism / Elegant / Modern / Clean / Editorial

  • 使用大量留白(whitespace),避免拥挤

  • 配色控制在 2-3 种主色以内(建议中性色 + 点缀色)

  • 字体具有设计感(标题与正文字体形成对比)

  • 页面整体要有“呼吸感”和节奏感

【页面结构】

  1. Hero 区:

  • 大字号标题(例如:个人名字 + 一句话介绍)

  • 简洁但有设计感的排版

  • 可加入轻微动画(如淡入、位移、渐变)

  1. Projects 区:

  • 以卡片或网格形式展示作品

  • 每个项目包含:封面图、标题、简短描述

  • hover 时出现细腻交互(放大、阴影、渐变等)

  • 点击可展开或跳转详情(无需复杂路由)

  1. About 区:

  • 简短自我介绍

  • 排版类似杂志(editorial layout)

  1. Contact 区:

  • 极简设计(邮箱 / 社交链接)

  • 可加入 subtle hover 动效

【交互与动画】

  • 所有动画必须“克制且自然”,避免炫技

  • 使用平滑过渡(ease-in-out)

  • 页面滚动时有轻微 reveal 动画(fade / translate)

  • 鼠标 hover 反馈要精致但不夸张

【技术要求】

  • 使用 HTML + CSS + JavaScript(单文件实现)

  • 可使用 CSS 动画或 requestAnimationFrame

  • 不依赖大型框架(如 React)

  • 代码结构清晰,便于修改

【加分项(可选)】

  • 轻微视差滚动(parallax)

  • 鼠标跟随的柔和光效或背景变化

  • 暗色 / 浅色模式切换(带过渡)

【重要约束】

  • 不要使用花哨或廉价的特效

  • 不要使用过多颜色或复杂布局

  • 整体视觉必须统一,有设计系统感

最终输出完整可运行的 HTML 文件。

GLM-5.1 输出效果:

✅ 优势项:

  • 完整的功能系统,模态框详情展示了分类、年份、任务角色等,信息逻辑健全。
  • 视觉效果出色,滚动视差、鼠标跟随柔光特效、板块过渡流畅,整体视觉氛围符合“克制且自然”的要求。

❌ 缺陷:

  • 几乎没有功能性缺点。如果非要吹毛求疵,项目封面图使用了LoremFlick的随机图片,在真实项目中需要替换。但作为代码演示,完全可以接受。

ezgif.com-video-to-gif-converter (17).gif

GLM-5 输出效果:

视觉设计更前卫,但是细节把控有瑕疵,例如模态框内容单一、深色模式切换按钮不可用。

ezgif.com-video-to-gif-converter (18).gif

附 Claude Opus 4.6 输出效果:

视觉设计高级,整体呈现出一种冷静内省的侘寂风或极简主义美学,代码结构优雅简洁,也因极简而牺牲了一些细节(如模态框文字内容单一机械)

ezgif.com-video-to-gif-converter (19).gif

测评点GLM-5.1GLM-5Claude Opus 4.6
功能完整性⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
视觉效果⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
交互细节⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

案例 4:交互式动画

提示词

用一个 HTML 文件实现一个种子生长为大树的交互式动画。要求:

  • 展示完整生命周期:种子裂开、根系向下延伸、茎破土而出、枝干伸展、树叶生长
  • 每个阶段的过渡要自然流畅
  • 有光照效果,尽可能追求真实感
  • 点击页面可以重新播放动画

GLM-5.1 输出效果:

✅ 优势项:

  • 光照与氛围实现是最大亮点。背景实现非常细节(包括天空渐变、远景山丘、地面雾气、丁达尔光柱等效果)
  • 每个阶段的出现和消失(如种子的渐隐、树苗的覆盖)都用了clampease函数进行平滑插值,没有生硬的切换感

❌ 缺陷:

  • 极致细节的代价是代码量太庞大,大量粒子、光影叠加层以及曲线绘制,性能开销大

GLM-5 输出效果:

输出的粒子数量和特效复杂度控制得较好,在视觉效果和性能之间取得了不错的平衡,只在视觉表现和细节上逊色于 GLM-5.1。

附 Claude Opus 4.6 输出效果:

代码架构最清晰,输出了一个优秀的算法演示,展现出极强的复杂算法掌控力,只有视觉表现稍显克制。

测评点GLM-5.1GLM-5Claude Opus 4.6
算法实现⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
物理模拟⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
视觉设计与交互⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

IV. GLM-5.1 模型实测结论


以上测评案例本身已经清晰地描摹了模型的能力轮廓,但比起各项维度的性能提升,GLM-5.1 在任务执行方式上的变化更加值得关注:

1. 长程能力成为核心变量

GLM-5.1 最核心的提升,在于持续工作能力的质量跃升,即模型的能力重心,从单次输出质量转向长时间任务中的有效性

这一点在复杂任务中尤为明显——模型不是一次性给出答案,而是在逐步逼近一个更合理的解。实测过程中能明显感受到,模型在输出和执行任务时不会急于收敛,而是主动回看关键决策点结果,反复进行验证与自我修正,再继续向前推进,这种“实验 → 分析 → 调整 → 再验证”的完整循环,使得它在长流程任务中不容易早早陷入停滞,并提升了最优解质量。

此外,一个比较明显的体感是,GLM-5.1 在面对连续修改、补充要求时,不容易跑偏或跟丢上下文目标。即使任务被多次打断或叠加新需求,它仍然能维持整体结构的一致性,这本质上反映出了模型在长上下文中具备极强的的状态管理能力。

2. 编程与工程能力跻身第一梯队

从整体表现来看,GLM-5.1 的编程能力已经稳稳进入当前第一梯队,尤其是在项目级任务中,表现出很强的结构组织能力与细节补全能力,交付结果甚至与顶尖闭源模型 Claude Opus 4.6 不相上下。

无论是页面构建、动画实现还是逻辑推理类问题,其交付的共同特征都是:倾向于把东西做完整,并在过程中不断补齐细节。从具体案例来看,这一特征在大多数场景下属于优势项,比如网页、动画、交互类任务中,模型往往会主动构建精美的交互细节、增强视觉表现力,交付结果别具“氛围感”。

而这种优势主要作用于工程执行与优化路径上,在某些极限设计感或高度抽象的表达,例如案例 3 中特别要求“克制”的视觉风格取舍上,以及案例 4 中动用大量代码实现的细节堆砌上,模型的输出会偏向于“做满”而不是“做减”,有一种“用力过猛”的趋势。

由此可见,GLM-5.1 的交付表现更偏完整交付而非单点极限。换句话说,GLM-5.1 更像一个执行力很强的工程型模型,而不是刻意追求某一维度极致表达的模型。

3. 开源的能力边界:从接近到对标

说回开发者最关注的话题,放在更大的语境下看,GLM-5.1 的意义在于:其在编程这一最接近真实生产环境的场景中,已经能够与顶级闭源模型正面对比,并在部分关键基准上实现反超——这种原本只存在于闭源阵营中的领先表现,这一次站在了开源模型这一边。

结合其开源属性与实际可用性,带来的变化是直接且现实的:开源模型不再只是性价比权衡之下的被动选择,而开始成为可以进入实际生产流程的优质选择。

尤其是在长程任务能力逐渐成为核心指标的背景下,GLM-5.1 所展现出的,是一种更接近“可替代一段时间人类工作”的能力形态。

正如智谱官方所说:

“GLM-5.1不只是一个更强的模型,而是一种新的技术范式的开启。此刻,尝试给它一个指令,然后离开 8 小时。”

届时,真正被改变的已不再是模型,而是工作方式。