GLM-5:从氛围编码到代理工程

0 阅读9分钟

最近,Zhipu AI和清华大学团队发布了GLM-5,这款新模型试图从「氛围编码」转向「代理工程」——换句话说,让AI不仅能写代码,还能像真正的软件工程师一样思考和行动。

Vibe Coding:指AI在「氛围」驱动的编码模式下工作,就像音乐家跟随感觉即兴创作。这种方式适合创意任务,但缺乏工程系统性和长期一致性。

Agentic Engineering:指AI以「代理」身份进行工程工作,具备规划、执行、反思、调整的完整循环,更像人类工程师的工作模式。

当SOTA成为新常态

数据显示GLM-5在多个基准测试中达到了SOTA(State-of-the-Art,最先进)状态。

SOTA:当前领域内的最佳水平。就像体育比赛中的世界纪录,每个模型都想打破这个数字。

但真正让GLM-5脱颖而出的是,它不只是纸面数据的冠军,在实际软件工程任务中也表现出色。

图片

图1展示了GLM-5与其他顶级模型在多个基准测试中的对比。在SWE-bench Verified这样的真实编程任务上,GLM-5超越了之前的开源模型。

这就像一个理论考试满分的学生,在实际项目中也同样出色——这在AI领域极其罕见。

从临时工到总工程师的转变

要理解GLM-5的创新,我们需要先理解它的前身GLM-4.5。GLM-4.5提出了「ARC」框架,将Agentic(代理性)、Reasoning(推理)、Coding(编码)三种能力融合到单一模型中。

这个思路很有趣,但还不够。GLM-5要解决的是两个核心问题:

第一个问题:计算成本。

AI模型的计算成本是天文数字。训练一个顶级模型可能耗资上亿美元,推理成本同样惊人。如果AI要成为通用智能,成本必须下降。

第二个问题:实际适应性。

静态基准测试像体育比赛,有明确的规则和时间限制。但真实软件工程更像是在战场上——没有明确的边界、需要长期规划、必须应对不断变化的需求。

GLM-5试图同时解决这两个问题。

稀疏注意力:给大脑装上「流量计」

GLM-5核心技术贡献是DSA(DeepSeek Sparse Attention)。这是一个让模型变得更聪明的架构创新。

稀疏注意力:传统的注意力机制会关注每个词,而稀疏注意力只关注重要的词。就像你在读一本书时,不会记住每个标点符号,而是关注关键词。

想象一下,你有一支手电筒,光线照亮一片区域。传统注意力就像同时照亮整个房间,而稀疏注意力就像是智能调节光照——只照亮真正重要的地方。

这听起来简单,但在AI领域是革命性的。DSA允许模型根据token的重要性动态分配注意力资源。

图片

图5展示了GLM-5的完整训练流程,包括DSA架构和异步强化学习。

DSA带来的好处是实打实的:

训练成本下降:模型可以扩展到744B参数,训练token预算达到28.5T,但成本控制在了合理范围内。

推理速度提升:在保持长上下文理解能力的同时,大幅降低计算开销。

长上下文:模型能够处理的长文本长度。就像一个人的工作记忆容量,能记住多少连续的信息。

GLM-5的上下文长度从4K扩展到200K——这意味着它能「记住」相当于一整本书的内容。

异步强化学习:把训练和生成解绑

这是GLM-5最有趣的创新之一。传统的AI训练是同步的:模型在训练时无法生成,生成时无法学习。

GLM-5提出了异步强化学习基础设施。这意味着:

异步处理:两个任务可以同时进行而不互相等待。就像你可以在听音乐的同时做饭,而不是必须关掉音乐才能做饭。

这种解耦带来的效率提升是巨大的。论文展示了一个三阶段的RL流程:

Reasoning RL:先训练推理能力

Agentic RL:再训练代理行为

General RL:最后进行通用强化学习

这个顺序不是随意设计的。推理是基础,代理行为建立在推理之上,通用性是最终的升华。

图片

图6展示了GLM-5的异步RL架构。训练和生成可以并行进行,大幅提升效率。

但这里有个致命问题:传统的强化学习会导致「灾难性遗忘」——学习新东西时,忘了旧东西。

灾难性遗忘:模型在学习新任务时,突然丢失了之前学到的能力。就像你学会了开车,却忘了怎么骑自行车。

GLM-5通过「On-Policy跨阶段蒸馏」来解决这个问题。简单说,就是在每个阶段都保留之前的技能,不让模型「忘本」。

真实世界的考验:当AI经营一家自动售货机公司

GLM-5最有意思的部分,是真实场景测试。Vending-Bench 2.0这个基准测试让AI模拟经营一家自动售货机公司一年。

听起来很简单?但这个任务需要长期规划、资源管理、应对意外情况——这些都是真实软件工程师每天面临的挑战。

图片

表1展示了Vending-Bench 2.0的详细设置和评分规则。AI需要管理库存、定价、维护等多个维度。

GLM-5的最终账户余额是$4,432,在所有开源模型中排名第一。

这个数字背后的意义远大于分数本身。这意味着模型能够:

  • 制定长期计划并坚持执行
  • 管理有限的资源(资金、库存)
  • 适应不断变化的市场条件

这些都是传统静态基准测试无法评估的能力。

长期一致性:AI能「保持」多久的稳定?

论文强调了长期一致性的重要性。当代理能自主工作几个小时甚至几天,它会面临什么挑战?

上下文漂移:随着时间推移,初始指令可能被稀释

决策一致性:早期决策的影响会持续积累

错误修复:需要识别并纠正自己的错误

GLM-5在Vending-Bench和CC-Bench-V2上的表现,展示了它在长视界任务上的优势。

长视界任务:需要跨越长时间窗口完成的任务,就像经营一家公司或开发一个大型软件项目,而不是只回答一个问题。

图片

图4展示了GLM-5在长视界任务上的表现。左侧是Vending-Bench 2,右侧是CC-Bench-V2。

基准测试全景:GLM-5在哪领先,在哪追赶?

论文提供了全面的基准测试数据:

Humanity’s Last Exam:模拟人类最难的考试,GLM-5达到75.9分。

SWE-bench Verified:真实软件工程任务,GLM-5得分4,432,在开源模型中领先。

LMArena:基于人类偏好的实时评测,GLM-5在Text Arena和Code Arena都是开源第一。

但更重要的是,GLM-5在Artificial Analysis Intelligence Index上得分50——这是首个达到50分的开源模型。

Artificial Analysis Intelligence Index:一个综合AI能力的指数,类似于人的智商测试,但针对机器智能。满分100,50代表了人类水平。

这个里程碑意义非凡。它意味着开源AI第一次达到了可以与顶级闭源模型(如GPT-5.2)竞争的水平。

训练数据的战略:先代码推理,后通用知识

GLM-5的训练策略很有意思。27万亿token的训练语料,优先顺序是:

代码和推理数据:优先训练

长上下文代理数据:中期重点

通用知识:最后补充

这个顺序不是随意的。代码和推理能力是「硬技能」——需要大量数据和高强度训练。通用知识可以更灵活地学习。

这就像建房子:先打地基(代码推理),再建框架(长上下文),最后装修(通用知识)。

算法创新:从MoE到DSA

GLM-4.5使用的是MoE(Mixture-of-Experts,专家混合)架构。GLM-5则采用DSA(DeepSeek Sparse Attention)。

两者的区别是什么?

MoE:模型有多个「专家」,每个问题由最相关的专家处理。就像医院有不同科室,病人去对应科室就诊。

DSA:注意力机制本身变得稀疏,只关注重要内容。就像医生只关注病人最关键的症状,而不是全身检查。

DSA的优势在于:

更细粒度控制:不是几个大专家,而是token级别的精准分配

更低的计算开销:不活跃的专家可以完全关闭

更好的长上下文:稀疏注意力天然适合处理长文本

从Vibe到Agent:范式转变的意义

论文标题中的「from Vibe Coding to Agentic Engineering」蕴含了深刻洞察。

Vibe Coding就像一个有才华但随意的艺术家——能创作出精彩作品,但无法保证可重复性和系统性。

Agentic Engineering则像专业工程师——有方法论、有质量标准、有长期规划。

这种转变对AI发展至关重要。因为如果AI要成为真正有用的工具,它不能只是「聪明」,还必须是「可靠」和「可用」的。

图片

图2展示了Artificial Analysis Intelligence Index v4.0的组成。GLM-5在10个评测综合指数中达到50分。

GLM-5代表了一个关键转折点

之前的AI模型像是极其聪明的工具——你给它明确的输入,它给你高质量的输出。

GLM-5则尝试成为一个聪明的代理——你给它一个目标,它自己规划、执行、调整、完成。

这意味着AI正在从「被动响应」转向「主动行动」。从「回答问题」转向「解决问题」。从「执行指令」转向「管理任务」。

这不仅仅是性能提升,而是角色重塑。

从Vibe Coding到Agentic Engineering。这不是一个小的渐进,而是一个大的范式转变。

在这个转变中,我们看到的不是AI能力的终点,而是AI成为真正「通用」智能的起点。