开源界的“Claude Opus”？实测 GLM-5.1：能否在工程交付上实现反超？4 月 8 日，智谱正式开源了 GL

文章导读：

4 月 8 日，智谱正式开源 GLM-5.1，带来了一场极具方向性的范式革命——将 AI 的能力重心从“单次输出”转向了“长程任务的持续执行”，在 SWE-Bench Pro 等工程基准中登顶开源榜首。本文基于多维度实测，对比其与 Claude Opus 4.6 的表现；实测发现，GLM-5.1 最核心的蜕变在于具备了“自我校验与持续迭代”的工程化能力，进一步拓宽了国产开源模型的能力边界。

全文约 4500 字

4 月 8 日，智谱正式开源了 GLM 最新的 5.1 版本。GLM-5.1 是一次方向极其明确的版本更新——将模型的能力重心推向了一个具体问题：能否在长时间任务中持续工作，并且持续产生有效结果。

1. 性能之外：GLM-5.1 在解决什么

作为基于 GLM-5 后训练演进而来的旗舰模型，GLM-5.1 把重点放在了转向长时间任务中的有效性提升上。而从结果来看，这一方向已经带来了相当直接的性能回报。在最具代表性的工程类基准测试中，GLM-5.1 取得了目前开源模型中的顶级成绩：

在 SWE-Bench Pro 上以 58.4 分登顶，超过 GPT-5.4 与 Claude Opus 4.6；同时在 Terminal-Bench 2.0 与 NL2Repo 等任务中保持全球前三、开源第一的综合表现。 这意味着，在“真实软件工程问题”这一最接近生产环境的维度上，开源模型首次真正进入第一梯队。

2. 八小时能力：从演示到生产力

相比更强的代码生成能力，GLM-5.1 还有一个更值得关注的标签：长程任务（Long-Horizon Task）能力。

不同于以往以分钟为单位的交互式调用，GLM-5.1 可以在单次任务中持续长时间运行，在数百到上千轮迭代中，自主完成“实验 → 分析 → 调整 → 再验证”的完整循环。这种能力在实测场景中被具体化：在没有明确评价指标的情况下，模型连续运行 8 小时，从零构建出了一个完整的 Web 版 Linux 桌面系统。

这体现出的是 GLM-5.1 与前代模型，甚至与一部分同级别模型之间最核心的差异——模型不再只是执行任务，而是开始具备把任务不断做好的能力。

3. 开源突破：重新定义技术边界

此外，作为一个采用 MIT 协议开源、并在编程基准上进入全球第一梯队的模型，GLM-5.1 也进一步压缩了开源与闭源之间的能力差距。

一方面，它在编程这一高价值场景中，首次实现了对顶级闭源模型的单项超越；另一方面，模型完全基于国产算力训练完成，并许可证开源，在可用性与商业化路径上进一步降低门槛。

这使得 GLM-5.1 的影响不再局限于更强的国产模型，而是在于开源模型在关键能力维度上正重新定义技术边界。

接下来，302.AI将通过一系列案例，对其进行实测，看看它在真实开发场景中的表现究竟如何。

I. 实测模型基础信息

（1）测评目的：

本评测侧重模型对逻辑，数学，编程，多模态，人类直觉等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

（2）测评方法：

本次测评使用302.AI收录的题库进行独立测试。模型分别就逻辑与数学（共10题），人类直觉（共7题）以及编程模拟（共12题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

题库地址：docs.google.com/spreadsheet…

💡记分规则：

按满分10分记分，设定对应扣分标准，最终取每轮得分的平均值。

（3）测评工具：

所有模型均在302.AI Stuidio客户端内使用对应模型，使用统一的提示词，取第一次生成结果
编程测试使用302.AI Stuidio客户端的Vibe模式：调用Claude Code沙盒

编程案例分数评级：

⭐⭐⭐⭐⭐ S 级（封神）：行业标杆，重新定义标准。

⭐⭐⭐⭐ A 级（卓越）：生产力合格，无明显短板。

⭐⭐⭐ B 级（优秀）：表现中规中矩，存在短板。

⭐⭐及以下 C级（不合格）：不可用，存在明显问题。

II. 测试结果总览

302.AI 模型测评分数榜单：

III. 案例展示

案例 1：逻辑推理

实测过程发现，模型在关键决策节点会反复进行自我校验与路径修正，而不是一次性给出结论。

提示词：

以下每一排的五个数字对应ABCDE：

第一排：79314，这一排中有一个数字是对的，但所处位置不对

第二排：95643，这一排中有两个数字是对的，但只有其中一个位置正确

第三排：57319，这一排中有两个数字是对的，且两个所处位置都正确

现在已知数字之和等于最后两位数字，即 (A+B + C + D +E=D*10+E)，请推测出正确密码

答案：

Case A - 57620

Case B - 57628

GLM-5.1 完整推测出两种情况

GLM-5 只推测出了一种情况

案例 2：程序化 SVG 图形生成

提示词：绘制一个鹈鹕骑自行车的动态 SVG

GLM-5.1 绘制的图形构造已经没有太大问题，自行车结构也较为稳定，相对运动方向合理，但鹈鹕腿部与踏板连接问题仍未完美处理。

GLM-5 绘制的鹈鹕骑车，动态但原地踏步，运动状态实现较差，

附 Claude Opus 4.6 效果： 画面构成细节更丰富，但依然处理不好腿部和踏板连接问题。

提示词：绘制一副花田中的荷兰风车的svg动态图

GLM-5.1 的输出在视觉上独具氛围感，细看花田建模略草率，但加分点也很明确：三个风车的转动效果是错落呈现的。

GLM-5 输出的图形大部分由色块组成，效果较差。

附 Claude Opus 4.6 效果： 细节元素较齐全，视觉风格上略显粗糙。

测评点	GLM-5.1	GLM-5	Claude Opus 4.6
语义表达准确度	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
图形构造复杂度	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐
动态实现质量	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐

案例 3：网页制作

提示词：请帮我创建一个单页作品集网站（Portfolio Website），要求整体风格“优雅、现代、克制”，强调设计感与沉浸式体验，而不是功能堆砌。

【整体设计要求】

风格关键词：Minimalism / Elegant / Modern / Clean / Editorial

使用大量留白（whitespace），避免拥挤

配色控制在 2-3 种主色以内（建议中性色 + 点缀色）

字体具有设计感（标题与正文字体形成对比）

页面整体要有“呼吸感”和节奏感

【页面结构】

Hero 区：

大字号标题（例如：个人名字 + 一句话介绍）

简洁但有设计感的排版

可加入轻微动画（如淡入、位移、渐变）

Projects 区：

以卡片或网格形式展示作品

每个项目包含：封面图、标题、简短描述

hover 时出现细腻交互（放大、阴影、渐变等）

点击可展开或跳转详情（无需复杂路由）

About 区：

简短自我介绍

排版类似杂志（editorial layout）

Contact 区：

极简设计（邮箱 / 社交链接）

可加入 subtle hover 动效

【交互与动画】

所有动画必须“克制且自然”，避免炫技

使用平滑过渡（ease-in-out）

页面滚动时有轻微 reveal 动画（fade / translate）

鼠标 hover 反馈要精致但不夸张

【技术要求】

使用 HTML + CSS + JavaScript（单文件实现）

可使用 CSS 动画或 requestAnimationFrame

不依赖大型框架（如 React）

代码结构清晰，便于修改

【加分项（可选）】

轻微视差滚动（parallax）

鼠标跟随的柔和光效或背景变化

暗色 / 浅色模式切换（带过渡）

【重要约束】

不要使用花哨或廉价的特效

不要使用过多颜色或复杂布局

整体视觉必须统一，有设计系统感

最终输出完整可运行的 HTML 文件。

GLM-5.1 输出效果：

✅ 优势项：

完整的功能系统，模态框详情展示了分类、年份、任务角色等，信息逻辑健全。
视觉效果出色，滚动视差、鼠标跟随柔光特效、板块过渡流畅，整体视觉氛围符合“克制且自然”的要求。

❌ 缺陷：

几乎没有功能性缺点。如果非要吹毛求疵，项目封面图使用了LoremFlick的随机图片，在真实项目中需要替换。但作为代码演示，完全可以接受。

ezgif.com-video-to-gif-converter (17).gif

GLM-5 输出效果：

视觉设计更前卫，但是细节把控有瑕疵，例如模态框内容单一、深色模式切换按钮不可用。

ezgif.com-video-to-gif-converter (18).gif

附 Claude Opus 4.6 输出效果：

视觉设计高级，整体呈现出一种冷静内省的侘寂风或极简主义美学，代码结构优雅简洁，也因极简而牺牲了一些细节（如模态框文字内容单一机械）

ezgif.com-video-to-gif-converter (19).gif

测评点	GLM-5.1	GLM-5	Claude Opus 4.6
功能完整性	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
视觉效果	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
交互细节	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐

案例 4：交互式动画

提示词：

用一个 HTML 文件实现一个种子生长为大树的交互式动画。要求：

展示完整生命周期：种子裂开、根系向下延伸、茎破土而出、枝干伸展、树叶生长

每个阶段的过渡要自然流畅

有光照效果，尽可能追求真实感

点击页面可以重新播放动画

GLM-5.1 输出效果：

✅ 优势项：

光照与氛围实现是最大亮点。背景实现非常细节（包括天空渐变、远景山丘、地面雾气、丁达尔光柱等效果）
每个阶段的出现和消失（如种子的渐隐、树苗的覆盖）都用了clamp和ease函数进行平滑插值，没有生硬的切换感

❌ 缺陷：

极致细节的代价是代码量太庞大，大量粒子、光影叠加层以及曲线绘制，性能开销大

GLM-5 输出效果：

输出的粒子数量和特效复杂度控制得较好，在视觉效果和性能之间取得了不错的平衡，只在视觉表现和细节上逊色于 GLM-5.1。

附 Claude Opus 4.6 输出效果：

代码架构最清晰，输出了一个优秀的算法演示，展现出极强的复杂算法掌控力，只有视觉表现稍显克制。

测评点	GLM-5.1	GLM-5	Claude Opus 4.6
算法实现	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
物理模拟	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
视觉设计与交互	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐

IV. GLM-5.1 模型实测结论

以上测评案例本身已经清晰地描摹了模型的能力轮廓，但比起各项维度的性能提升，GLM-5.1 在任务执行方式上的变化更加值得关注：

1. 长程能力成为核心变量

GLM-5.1 最核心的提升，在于持续工作能力的质量跃升，即模型的能力重心，从单次输出质量转向长时间任务中的有效性。

这一点在复杂任务中尤为明显——模型不是一次性给出答案，而是在逐步逼近一个更合理的解。实测过程中能明显感受到，模型在输出和执行任务时不会急于收敛，而是主动回看关键决策点结果，反复进行验证与自我修正，再继续向前推进，这种“实验 → 分析 → 调整 → 再验证”的完整循环，使得它在长流程任务中不容易早早陷入停滞，并提升了最优解质量。

此外，一个比较明显的体感是，GLM-5.1 在面对连续修改、补充要求时，不容易跑偏或跟丢上下文目标。即使任务被多次打断或叠加新需求，它仍然能维持整体结构的一致性，这本质上反映出了模型在长上下文中具备极强的的状态管理能力。

2. 编程与工程能力跻身第一梯队

从整体表现来看，GLM-5.1 的编程能力已经稳稳进入当前第一梯队，尤其是在项目级任务中，表现出很强的结构组织能力与细节补全能力，交付结果甚至与顶尖闭源模型 Claude Opus 4.6 不相上下。

无论是页面构建、动画实现还是逻辑推理类问题，其交付的共同特征都是：倾向于把东西做完整，并在过程中不断补齐细节。从具体案例来看，这一特征在大多数场景下属于优势项，比如网页、动画、交互类任务中，模型往往会主动构建精美的交互细节、增强视觉表现力，交付结果别具“氛围感”。

而这种优势主要作用于工程执行与优化路径上，在某些极限设计感或高度抽象的表达，例如案例 3 中特别要求“克制”的视觉风格取舍上，以及案例 4 中动用大量代码实现的细节堆砌上，模型的输出会偏向于“做满”而不是“做减”，有一种“用力过猛”的趋势。

由此可见，GLM-5.1 的交付表现更偏完整交付而非单点极限。换句话说，GLM-5.1 更像一个执行力很强的工程型模型，而不是刻意追求某一维度极致表达的模型。

3. 开源的能力边界：从接近到对标

说回开发者最关注的话题，放在更大的语境下看，GLM-5.1 的意义在于：其在编程这一最接近真实生产环境的场景中，已经能够与顶级闭源模型正面对比，并在部分关键基准上实现反超——这种原本只存在于闭源阵营中的领先表现，这一次站在了开源模型这一边。

结合其开源属性与实际可用性，带来的变化是直接且现实的：开源模型不再只是性价比权衡之下的被动选择，而开始成为可以进入实际生产流程的优质选择。

尤其是在长程任务能力逐渐成为核心指标的背景下，GLM-5.1 所展现出的，是一种更接近“可替代一段时间人类工作”的能力形态。

正如智谱官方所说：

“GLM-5.1不只是一个更强的模型，而是一种新的技术范式的开启。此刻，尝试给它一个指令，然后离开 8 小时。”

届时，真正被改变的已不再是模型，而是工作方式。