GLM-5.2 首发体验,Peri Code 当天完成接入
Peri Code — 用 Rust 写的开源 Coding Agent,兼容 Claude Code 生态。github.com/KonghaYao/p…
6 月 13 日,智谱宣布 GLM-5.2 面向 GLM Coding Plan 全量用户开放,覆盖 Lite / Pro / Max / 团队版。我打开 Peri Code,把环境变量里的模型名从 glm-5.1 改成 glm-5.2,发了一条消息。零报错,工具调用正常,推理链完整。这篇文章就是 GLM-5.2 在 Peri Code 里写的。
GLM-5.2 写了这篇博客
测一个 coding agent 后端,最好的方式是让它干一件真实的事。我让 GLM-5.2 写你正在读的这篇文章——走 Peri Code 的 blog-writer skill(可加载的专项能力指令)完整流程。这个 skill 200 行,定义了六步写作流程,每一步要求停下来跟用户确认。
文风也比之前好。blog-writer skill 有严格的写作规则——禁拟人化、禁单句成段、禁设问自答、术语首次出现要带白话解释。GLM-5.2 的初稿已经遵守了大部分,subagent 审查只查出 10 个问题,多数是术语解释缺漏这类小问题。之前的模型初稿违规更多,往往要改两三轮才能过审。
思考能力提升
最明显的感受是思考更多了。第一步要求 grill(质询式提问)用户对齐核心命题——先问清楚这篇文章想让读者记住什么,再动笔。GLM-5.2 没有跳过这步,它一次问了三个问题,覆盖重心方向(接入复盘、能力测评、架构讨论)、接入难度、新增能力,每个给了四个选项。拿到回答后确认核心命题一句话,再出五个标题。用户说标题要以 GLM-5.2 为主角,它重新出了五个。大纲环节用户提了修改意见,把第二节挪到结尾,它按反馈调整了结构。
写完后我的反馈直白——相比之前的模型,脑子提高了。这不是 benchmark(能力测试基准)分数说的。是一次真实的写作任务里,它解析 200 行的 skill 文件,按六步流程分步执行,收到修改意见后调整输出。每一步都没走偏,没有需要反复纠正的地方。
多智能体派发更精准
Subagent(子代理,独立上下文的 AI 执行单元)派发比之前精准。第六步要求派一个独立 subagent 做文风审查——全新上下文,不共享对话历史。GLM-5.2 选了 general-purpose 类型,在 prompt 里把 SKILL.md 路径、文章路径、十三项审查清单全部写齐。subagent 拿到的是自包含的指令,返回了 10 个问题,从拟人化措辞到术语解释缺漏到标题格式,逐条列出位置和修改建议。GLM-5.2 修复了 8 个,保留了 2 个有理由不动的。
对 CLAUDE.md(项目级 AI 指令文件)里的规则也更守规矩。CLAUDE.md 写着不要轻易提交 git,除非用户明确要求。GLM-5.2 从来没有自作主张提交过。任务做完了,它会主动提醒我「可以提交了」,等我说提交才动手。
代码正确率和任务理解力
日常写代码时,变化比写文章更直接。代码正确率高了——改一个模块,一次编译通过的次数比之前多,不用反复编译-报错-修-再编译。任务理解力也强了——给一个复杂需求,跑偏方向的次数少了,返工跟着少。
Peri Code 是上万行的 Rust 项目,类型系统严格,编译器不放过任何类型不匹配。在这个量级的项目里减少返工,意味着模型对 Rust 类型约束和代码结构理解更准确了。
国产模型的跃升
发布前一天,6 月 12 日,Anthropic 因美国政府出口管制指令,全球暂停 Claude Fable 5 访问。无法验证用户国籍,一刀切停了所有人,包括在美外籍员工。理由是存在越狱风险,但 Anthropic 自己反驳说这是窄域能力,GPT-5.5 等公开模型也能做到。
6 月 13 日,GLM-5.2 全量开放,Peri Code 改个模型名就开始干活。Peri Code 兼容 Claude Code 生态,设计之初后端是 Claude。现在写这篇文章的后端是 GLM-5.2。国产模型不需要 benchmark 证明自己能用了,直接上手干真实任务就行。
这篇文章,就是 GLM-5.2 上线第一天在 Peri Code 里写的。前一天 Claude 全球停服,后一天国产模型接上了。