GLM-5：从氛围编码到代理工程最近，Zhipu AI和清华大学团队发布了GLM-5，这款新模型试图从「氛围编码」转向「

最近，Zhipu AI和清华大学团队发布了GLM-5，这款新模型试图从「氛围编码」转向「代理工程」——换句话说，让AI不仅能写代码，还能像真正的软件工程师一样思考和行动。

Vibe Coding：指AI在「氛围」驱动的编码模式下工作，就像音乐家跟随感觉即兴创作。这种方式适合创意任务，但缺乏工程系统性和长期一致性。

Agentic Engineering：指AI以「代理」身份进行工程工作，具备规划、执行、反思、调整的完整循环，更像人类工程师的工作模式。

当SOTA成为新常态

数据显示GLM-5在多个基准测试中达到了SOTA（State-of-the-Art，最先进）状态。

SOTA：当前领域内的最佳水平。就像体育比赛中的世界纪录，每个模型都想打破这个数字。

但真正让GLM-5脱颖而出的是，它不只是纸面数据的冠军，在实际软件工程任务中也表现出色。

图1展示了GLM-5与其他顶级模型在多个基准测试中的对比。在SWE-bench Verified这样的真实编程任务上，GLM-5超越了之前的开源模型。

这就像一个理论考试满分的学生，在实际项目中也同样出色——这在AI领域极其罕见。

从临时工到总工程师的转变

要理解GLM-5的创新，我们需要先理解它的前身GLM-4.5。GLM-4.5提出了「ARC」框架，将Agentic（代理性）、Reasoning（推理）、Coding（编码）三种能力融合到单一模型中。

这个思路很有趣，但还不够。GLM-5要解决的是两个核心问题：

第一个问题：计算成本。

AI模型的计算成本是天文数字。训练一个顶级模型可能耗资上亿美元，推理成本同样惊人。如果AI要成为通用智能，成本必须下降。

第二个问题：实际适应性。

静态基准测试像体育比赛，有明确的规则和时间限制。但真实软件工程更像是在战场上——没有明确的边界、需要长期规划、必须应对不断变化的需求。

GLM-5试图同时解决这两个问题。

稀疏注意力：给大脑装上「流量计」

GLM-5核心技术贡献是DSA（DeepSeek Sparse Attention）。这是一个让模型变得更聪明的架构创新。

稀疏注意力：传统的注意力机制会关注每个词，而稀疏注意力只关注重要的词。就像你在读一本书时，不会记住每个标点符号，而是关注关键词。

想象一下，你有一支手电筒，光线照亮一片区域。传统注意力就像同时照亮整个房间，而稀疏注意力就像是智能调节光照——只照亮真正重要的地方。

这听起来简单，但在AI领域是革命性的。DSA允许模型根据token的重要性动态分配注意力资源。

图5展示了GLM-5的完整训练流程，包括DSA架构和异步强化学习。

DSA带来的好处是实打实的：

训练成本下降：模型可以扩展到744B参数，训练token预算达到28.5T，但成本控制在了合理范围内。

推理速度提升：在保持长上下文理解能力的同时，大幅降低计算开销。

长上下文：模型能够处理的长文本长度。就像一个人的工作记忆容量，能记住多少连续的信息。

GLM-5的上下文长度从4K扩展到200K——这意味着它能「记住」相当于一整本书的内容。

异步强化学习：把训练和生成解绑

这是GLM-5最有趣的创新之一。传统的AI训练是同步的：模型在训练时无法生成，生成时无法学习。

GLM-5提出了异步强化学习基础设施。这意味着：

异步处理：两个任务可以同时进行而不互相等待。就像你可以在听音乐的同时做饭，而不是必须关掉音乐才能做饭。

这种解耦带来的效率提升是巨大的。论文展示了一个三阶段的RL流程：

Reasoning RL：先训练推理能力

Agentic RL：再训练代理行为

General RL：最后进行通用强化学习

这个顺序不是随意设计的。推理是基础，代理行为建立在推理之上，通用性是最终的升华。

图6展示了GLM-5的异步RL架构。训练和生成可以并行进行，大幅提升效率。

但这里有个致命问题：传统的强化学习会导致「灾难性遗忘」——学习新东西时，忘了旧东西。

灾难性遗忘：模型在学习新任务时，突然丢失了之前学到的能力。就像你学会了开车，却忘了怎么骑自行车。

GLM-5通过「On-Policy跨阶段蒸馏」来解决这个问题。简单说，就是在每个阶段都保留之前的技能，不让模型「忘本」。

真实世界的考验：当AI经营一家自动售货机公司

GLM-5最有意思的部分，是真实场景测试。Vending-Bench 2.0这个基准测试让AI模拟经营一家自动售货机公司一年。

听起来很简单？但这个任务需要长期规划、资源管理、应对意外情况——这些都是真实软件工程师每天面临的挑战。

表1展示了Vending-Bench 2.0的详细设置和评分规则。AI需要管理库存、定价、维护等多个维度。

GLM-5的最终账户余额是$4,432，在所有开源模型中排名第一。

这个数字背后的意义远大于分数本身。这意味着模型能够：

制定长期计划并坚持执行
管理有限的资源（资金、库存）
适应不断变化的市场条件

这些都是传统静态基准测试无法评估的能力。

长期一致性：AI能「保持」多久的稳定？

论文强调了长期一致性的重要性。当代理能自主工作几个小时甚至几天，它会面临什么挑战？

上下文漂移：随着时间推移，初始指令可能被稀释

决策一致性：早期决策的影响会持续积累

错误修复：需要识别并纠正自己的错误

GLM-5在Vending-Bench和CC-Bench-V2上的表现，展示了它在长视界任务上的优势。

长视界任务：需要跨越长时间窗口完成的任务，就像经营一家公司或开发一个大型软件项目，而不是只回答一个问题。

图4展示了GLM-5在长视界任务上的表现。左侧是Vending-Bench 2，右侧是CC-Bench-V2。

基准测试全景：GLM-5在哪领先，在哪追赶？

论文提供了全面的基准测试数据：

Humanity’s Last Exam：模拟人类最难的考试，GLM-5达到75.9分。

SWE-bench Verified：真实软件工程任务，GLM-5得分4,432，在开源模型中领先。

LMArena：基于人类偏好的实时评测，GLM-5在Text Arena和Code Arena都是开源第一。

但更重要的是，GLM-5在Artificial Analysis Intelligence Index上得分50——这是首个达到50分的开源模型。

Artificial Analysis Intelligence Index：一个综合AI能力的指数，类似于人的智商测试，但针对机器智能。满分100，50代表了人类水平。

这个里程碑意义非凡。它意味着开源AI第一次达到了可以与顶级闭源模型（如GPT-5.2）竞争的水平。

训练数据的战略：先代码推理，后通用知识

GLM-5的训练策略很有意思。27万亿token的训练语料，优先顺序是：

代码和推理数据：优先训练

长上下文代理数据：中期重点

通用知识：最后补充

这个顺序不是随意的。代码和推理能力是「硬技能」——需要大量数据和高强度训练。通用知识可以更灵活地学习。

这就像建房子：先打地基（代码推理），再建框架（长上下文），最后装修（通用知识）。

算法创新：从MoE到DSA

GLM-4.5使用的是MoE（Mixture-of-Experts，专家混合）架构。GLM-5则采用DSA（DeepSeek Sparse Attention）。

两者的区别是什么？

MoE：模型有多个「专家」，每个问题由最相关的专家处理。就像医院有不同科室，病人去对应科室就诊。

DSA：注意力机制本身变得稀疏，只关注重要内容。就像医生只关注病人最关键的症状，而不是全身检查。

DSA的优势在于：

更细粒度控制：不是几个大专家，而是token级别的精准分配

更低的计算开销：不活跃的专家可以完全关闭

更好的长上下文：稀疏注意力天然适合处理长文本

从Vibe到Agent：范式转变的意义

论文标题中的「from Vibe Coding to Agentic Engineering」蕴含了深刻洞察。

Vibe Coding就像一个有才华但随意的艺术家——能创作出精彩作品，但无法保证可重复性和系统性。

Agentic Engineering则像专业工程师——有方法论、有质量标准、有长期规划。

这种转变对AI发展至关重要。因为如果AI要成为真正有用的工具，它不能只是「聪明」，还必须是「可靠」和「可用」的。

图2展示了Artificial Analysis Intelligence Index v4.0的组成。GLM-5在10个评测综合指数中达到50分。

GLM-5代表了一个关键转折点

之前的AI模型像是极其聪明的工具——你给它明确的输入，它给你高质量的输出。

GLM-5则尝试成为一个聪明的代理——你给它一个目标，它自己规划、执行、调整、完成。

这意味着AI正在从「被动响应」转向「主动行动」。从「回答问题」转向「解决问题」。从「执行指令」转向「管理任务」。

这不仅仅是性能提升，而是角色重塑。

从Vibe Coding到Agentic Engineering。这不是一个小的渐进，而是一个大的范式转变。

在这个转变中，我们看到的不是AI能力的终点，而是AI成为真正「通用」智能的起点。