老外吹爆的Pony就是它!让国产GLM-5写分布式系统,我验证了下,真行

0 阅读12分钟

大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。

我从GLM-4.6时代就开始关注智谱的模型了。

还记得去年10月GLM-4.6发布时,我第一次用它做过一些接口开发和数据库设计的辅助工作, 当时的感觉是“比前几代强了不少,但离Claude还有距离”。

2月GLM-4.7发布后,我又测试了一轮,那次在SWE-bench上拿到73.8%,已经让我很惊喜了。 后面就一直有在订阅GLM模型搭配着一起使用,但是没办法完全cover住我所有的后端复杂场景。

所以这次(2月11日)看到GLM-5发布,参数规模从355B直接翻倍到744B, 我第一时间就想测一测:这次能不能在后端系统工程上真正突破?

更有意思的是,这个模型之前在海外以“Pony Alpha”为名进行匿名公测,被老外吹爆了。

有人猜是Claude Sonnet-5,有人猜是DeepSeek-V4,甚至有人说超越了Opus 4.5。公测首日处理了400亿token、20.6万次请求,最终身份揭秘:国产智谱GLM-5

作为一个做了10年Java后端的开发者,我最关心的不是它能不能生成炫酷网页,而是能不能做真正的后端系统工程。

所以我给它出了个题:从零实现一个类似xxlJob的分布式任务调度系统

结果让我挺意外的——真跑通了,而且所有操作基本都没问题。

核心要点

  • Agent能力突破:多项榜单开源SOTA,BrowseComp、MCP-Atlas等超越闭源模型
  • 实测验证:用GLM-5从零生成类似xxlJob的分布式调度系统xlJob
  • 系统功能:执行器管理、任务调度、日志追踪、多种执行模式,所有操作基本都没问题
  • 成本优势:单次编程任务$0.14,是Opus 4.6的1/45
  • 使用体感:官方称逼近Opus 4.5

GLM-5:开源界的“系统架构师”

技术规格

先看硬指标:

  • 参数规模:744B(上代355B的2倍多)
  • 激活参数:40B(从32B提升)
  • 预训练数据:28.5T(从23T提升)
  • 架构:MoE(混合专家)
  • 上下文窗口:200K输入 / 128K输出

编程能力数据

标准评测:

  • SWE-bench Verified:77.8%(开源最高,超越Gemini 3.0 Pro)
  • Terminal Bench 2.0:56.2%(开源最高)
  • Artificial Analysis榜单:全球第四、开源第一

图片

图片

Agent能力数据

GLM-5在Agent能力上更猛,多项榜单拿了开源SOTA(最优表现):

  • BrowseComp(联网检索与信息理解):全场第一(超越所有闭源模型)
  • MCP-Atlas(工具调用与多步调度):开源第一
  • τ²-Bench(复杂多工具场景):开源第一
  • Humanity's Last Exam(带工具调用):全场第一
  • Vending Bench 2(售货机经营):超过GPT-5.2,接近Opus 4.5

核心定位

官方给GLM-5的定位是系统架构师模型,特别强化了两个方向:

  1. 复杂系统工程:不只是前端网页,更擅长后端任务、系统重构、深度调试
  2. 长程Agent任务:能跑多阶段、长步骤的复杂任务,持续几个小时不丢上下文

使用体感:官方内部评估,在Claude Code等真实编程场景中,GLM-5较上代GLM-4.7平均性能提升超20%,体感逼近Opus 4.5。

实测:让AI生成xlJob分布式调度系统

为什么选这个任务

作为一个做了10年Java后端的开发者,我想测试的不是“生成一个炫酷网页”,而是看GLM-5能不能做真正的后端系统工程。

分布式任务调度系统是企业级应用的核心基础设施之一。xxlJob是这个领域的成熟解决方案,很多公司都在用。我想看看GLM-5能不能生成一个类似的系统。

这个任务的技术难度:

  • 不是单一功能,而是完整的系统架构
  • 涉及前后端、数据库、分布式通信
  • 核心模块:调度中心、执行器、任务管理、日志追踪
  • 关键技术:Cron表达式、分布式注册、链路追踪、多种执行模式

我的提示词

我的提示词很详细,把需求和技术栈都列清楚了:

请从零实现一个类似 XXL-JOB 的分布式任务调度系统,包含调度中心和执行器。

功能要求:
1. 调度中心:任务管理(CRUD)、Cron 调度、执行器管理、日志查询、失败重试
2. 执行器:Netty 服务接收调度、@XxlJob 注解、心跳上报、状态回调
3. 路由策略:轮询、随机、故障转移
4. 阻塞策略:单机串行、并行、丢弃

技术栈:Spring Boot 3.x + MyBatis-Plus + MySQL + Netty

请先给出系统架构设计和表结构设计,然后逐步实现各模块。

生成过程

图片

GLM-5的响应很规范:先给出了整体架构设计、表结构设计,然后才开始逐步生成各个模块的代码。这个过程让我想起跟资深架构师做技术评审的场景。

印象比较深的是,它在架构设计阶段就把模块划分、数据库表结构、接口设计都梳理清楚了,而不是上来就开始写代码。

当然,这样一个复杂的项目,GLM不可能一次性就完整的实现所有功能,中间也出现了下面这些问题:

  1. 调度中心项目启动失败:

图片

  1. 第一版没有实现前端管理界面,导致我访问页面报错:

图片

告知GLM-5之后,调用指定前端Agent实现界面:

图片

前端项目启动成功:

图片

  1. 还有几个前端访问后端接口的404和500问题,我一一告诉GLM-5之后,它都能马上识别到原因,然后迅速修复!

GLM-5修复问题的过程,我感觉真的和使用Claude以及Codex模型没有多大差别了,一样的聪明!

经过几轮调试,功能基本完善之后,我自己添加了执行器和任务,测试了各种操作:启动、停止、查看日志、调度触发等。

所有操作基本都没问题,功能和xxlJob很像。

我录制了一个视频,可以到【子昕AI编程】微信公众号看效果。

系统功能展示

1. 系统概览 Dashboard

图片

先看整体。系统叫xlJob,版本v2.4.0,已经是个有版本管理意识的项目了。

界面设计很专业,深蓝色侧边栏+白色主内容区,典型的企业级后台管理系统风格。主导航包括:首页、执行器管理、任务管理、调度日志,功能模块清晰。

2. 执行器管理

图片

执行器管理是分布式调度系统的核心之一。我添加了一个名为“test_app”的执行器,注册方式是“自动注册”。

自动注册机制是xxlJob的核心特性,执行器启动时会自动向调度中心注册,并维持心跳。

GLM-5不仅实现了这个功能,还把更新时间记录下来,方便监控执行器的健康状态。

页面提供了完整的CRUD操作:添加执行器、编辑、删除。对于需要手动配置执行器的场景,这些功能都能用上。

3. 任务管理

图片

任务列表显示了ID、任务描述、Cron表达式、Handler等关键信息。Cron表达式是定时调度的标准语法,GLM-5实现了完整的定时调度引擎。

图片

图片

点击“添加任务”,弹出配置表单。这里有个亮点:运行模式和路由策略支持多种选项,都是分布式任务调度非常核心的功能,GLM-5把这些特性也实现了。

任务列表还提供了启动、停止、编辑、删除等操作按钮,完整的任务生命周期管理都有了。

4. 调度日志

图片

调度日志是排查问题的关键。

注意这里有个设计细节:调度结果和执行结果是分开展示的。调度结果表示调度中心是否成功把任务分配给执行器,执行结果表示执行器是否成功执行任务。这种分离设计是分布式系统的最佳实践,便于定位问题出在哪个环节。

图片

点击某条日志,可以查看详细信息。详情弹窗显示:

  • 执行结果:成功(绿色标签)
  • 执行器地址:127.0.0.1:8081
  • 执行日志信息(包含测试参数)

完整的日志链路追踪都有了。在生产环境中,这些日志信息对于排查问题、监控系统运行状态非常重要。

技术实现要点

从系统表现来看,GLM-5的技术选型很合理:

前端:

  • 现代化的Web UI框架(React)
  • 响应式布局、组件化开发
  • 交互流畅,表单、表格、弹窗等组件都很规范

后端:

  • Java语言
  • RESTful API设计
  • 数据库设计完整(有执行器表、任务表、日志表等)
  • 分布式架构(执行器与调度中心分离)
  • Netty通信(按照需求实现)

核心模块:

  1. 调度中心(Scheduler) :负责任务调度、执行器管理
  2. 执行器(Executor) :负责任务执行、日志上报
  3. 任务引擎:Cron表达式解析、定时触发
  4. 日志系统:链路追踪、详情存储

对标xxlJob的完成度:

核心功能基本都有了:执行器注册、任务管理、Cron调度、多种执行模式(BEAN/GLUE)、多种路由策略(轮训/随机/分配/故障转移)和日志追踪。从功能完整性来看,已经是一个可用的分布式调度系统。

当然,相比xxlJob这种经过大量生产环境验证的成熟系统,xlJob可能在稳定性、性能优化、异常处理、边界case等方面还有差距。但作为一个AI生成的系统,能做到这个程度已经很不错了。

GLM-5的“架构师”能力体现

通过xlJob这个案例,我感受到GLM-5确实有“架构师”的感觉。

1. 系统架构设计能力

从一开始就把调度中心、执行器、任务管理、日志追踪这几个核心模块分得很清楚。这不是简单地把功能堆在一起,而是有清晰的分层和边界。

比如执行器和调度中心的分离,这是分布式系统的标准设计。再比如调度结果和执行结果的分离展示,这种细节只有经验丰富的架构师才会想到。

2. 技术选型合理

前后端分离、RESTful API、分布式注册机制、Netty通信,这些都是企业级系统的标准选择。没有为了炫技去用一些不成熟的技术。

3. 细节考虑周到

比如:

  • 执行器自动注册(方便运维)
  • 多种执行模式支持(BEAN、GLUE)
  • 日志链路追踪(排查问题)
  • 状态可视化(绿色/红色标签)
  • 版本号管理(v2.4.0)

这些都是经验丰富的开发者才会想到的设计。

4. 长任务持久力

从系统设计到代码实现,这是一个需要持续几个小时的长任务。GLM-5在整个过程中没有丢失上下文,也没有跳步或遗漏关键功能。这种“持久力”在之前的GLM版本中是不太稳定的。

从“执行者”到“架构师”,GLM-5确实完成了一次质变。

与其他模型的对比

阮一峰的四项实测

除了我自己的测试,我也看了阮一峰老师对GLM-5、Opus 4.6、GPT-5.3-Codex做了四项对比测试,总结如下:

测试项目GLM-5Opus 4.6GPT-5.3
网页设计⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
3D沙盒⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
网页游戏⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Laravel转Next.js⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

总体来看,Opus 4.6在前端审美和游戏体验上略胜一筹,但GLM-5在系统转换任务中表现更好(用时5分钟 vs Opus的20分钟)。

官方定位上,GLM-5的真实编程体验是“逼近Opus 4.5” 。结合xlJob案例,我的感受是:GLM-5的强项在于后端系统工程,而不是前端审美

写在最后

2026年,AI编程正在从"写代码"进化为"做系统"。GLM-5的定位是"系统架构师",这次实测证明,它确实配得上这个定位。

通过xlJob案例,我们看到:

  • 它能设计合理的系统架构
  • 它能完成长时间的复杂任务
  • 它生成的代码质量达到生产级标准
  • 它在后端系统工程上的能力,使用体感已逼近Opus 4.5

真实使用体感

说几句我使用下来的真实感受:

代码生成速度和质量:GLM-5在处理这种长流程、重逻辑的后端项目时,表现非常稳定。架构设计的思路清晰,不会出现那种“写着写着就跑偏了”的情况。这一点比GLM-4.7强太多了。

也不是完全没问题:偶尔会有一点点卡顿,等了半天不知道它在干嘛。我猜测可能是因为模型太大了(744B参数),推理需要时间。但考虑到它生成的代码质量和架构设计的合理性,这点小瑕疵完全可以接受。

有个“幸福的烦恼” :我测试完后想订阅GLM-5的套餐,结果发现官网显示“暂时售罄”,这反而从侧面说明了它的受欢迎程度——毕竟性价比摆在那。

图片

对后端开发者的意义

对于Java后端开发者,GLM-5提供了一个高性价比的选择。告别账号被封的困扰,用国产模型也能做真正的系统工程。

从GLM-4.6到GLM-5,一路见证这个模型从“能用的平替”成长为“真正的架构师”,作为一个国内开发者,我挺有感触的。

开源界有了自己的“系统架构师”,这可能是今年国产AI最重要的突破之一。

更多内容,欢迎关注【子昕AI编程】微信公众号!