GLM-5.2 开发者测评 | 1M 上下文 + 强规划,单会话搞定跨语言工程项目

44 阅读7分钟

GLM-5.2 开发者测评 | 1M 上下文 + 强规划,单会话搞定跨语言工程项目

活动 GLM-5.2 全量上线 Coding Plan · 致敬开发者 测评场景:xianyu-auto(闲鱼自动上货技能包)完整开发 测评人:woshihoujinxin(开发者)


测评背景

我用 GLM-5.2 在 Claude Code 里从零做了一个完整项目 xianyu-auto——一套"网盘资料自动上架闲鱼"的开发者技能包。整个过程单会话贯穿,涉及多语言、多仓库、真实交付(npm 发布 + 电商上架),是一个能压测模型工程能力的真实场景。

维度规模说明
代码文件79 个git ls-files 实测
涉及语言5 种Python / Bash / Batch / TOML / TypeScript
开源仓库3 个xianyu-auto + quarkpan fork + xhs-cli fork
部署目标6 种 AI 应用Claude / OpenClaw / Cursor / Codex / 灵码 / Generic
真实交付npm 包 + 闲鱼商品 + 小红书帖非模拟,均已上线可验

下面围绕三个最打动我的能力点展开,都是真实体验,不堆虚的。


一、1M 上下文:Claude Code 长会话不再"压缩失忆"

这是最直观的体感提升

在 Claude Code 里用模型写代码,最头疼的就是上下文压缩(context compact)。以前用标准窗口的模型,一个稍复杂的项目写到一半,系统就提示"上下文已满,需要压缩",一压缩前面的决策细节就糊了——之前约定好的目录结构、命名规范、安装方式,全得重新解释一遍。一个项目断断续续改几十轮,光"重新同步上下文"就耗掉大量来回。

GLM-5.2 给到 1M 上下文,这次 xianyu-auto 项目我单会话跑了 90+ 轮,跨十几个子任务(整合技能 → 解决夸克网盘安装 → 双仓库推送 → fork xhs-cli → npm 发布 → 小红书发帖调试 → 写教程文档),全程没有触发过一次上下文压缩

更关键的是,早期约定全程不漂移。比如项目一开始定的:

  • 凭证统一放 ~/.config/<技能名>/(不散落各处)
  • quarkpan 走 git clone + pip install .(因 PyPI 同名包冲突,不走 pip 直装)
  • install.sh 用 TOML 声明式驱动多目标部署

这些约定在第一轮就定了,到第 90 轮我做小红书发帖时,模型仍然严格遵守,没一次记错或推翻。这种"长程一致性"对工程项目太重要了——不用人盯着"你是不是又忘了我们之前怎么定的"。

一句话:1M 不是噱头,是真能让一个跨语言、多仓库的项目在单会话里不失忆地连续推进。这在以前的标准窗口下基本做不到。


二、复杂任务规划:边界把控 + 主动拆解

第二个让我惊喜的是任务规划和边界感

我扔给它的不是"写个函数"这种小活,是"把 5 个独立技能整合成一个可一键安装到 6 种 AI 应用的项目"。这种复杂需求,以前的模型容易要么一上来就埋头乱写,要么大包大揽啥都答应最后做砸。

GLM-5.2 的做法是:先拆解,再管控边界

拆解:它把整合需求拆成了 18 个有依赖顺序的开发任务(代码迁入 → install 入口 → 部署声明 → 卸载 → 烟测 → 文档),用 Task 系统全程追踪,做完一个标一个,不会漏步骤也不会乱序。

边界把控(更难得):有几处它主动"踩刹车":

  • 我想让它顺手把 quarkpan 源码内嵌进项目,它分析后说"这会和上游维护分叉,建议保持 pip 依赖关系,不内嵌"——主动拒绝了越界方案
  • 我让它加一个统一凭证环境变量,做到一半它发现"这违背了各技能自管凭证的约定",主动回滚,改成按技能分目录。
  • 发帖功能调试时,它没有无脑改源码,而是先诊断(dump DOM、截图分析),确认根因(按钮在 iframe)再动手。

这种"知道哪些该做、哪些不该做、什么时候该停下确认"的分寸感,对复杂项目是防烂尾的关键。模型不瞎答应、不越界,人才能放心把大块任务交给它。


三、主动完善:超出指令的细节补全

第三点,也是日常用起来最舒服的:它不只是"吩咐啥做啥",会主动补你没顾上的细节

几个真实例子:

  • 我让它改一个配置文件,它改完顺手把引用这个配置的其他文件也检查了一遍,还提醒我"有处路径可能在新机器上不存在"。
  • 写 install 脚本时,我只说了"装依赖",它主动加了 Python/Node 版本检测、失败兜底、凭证目录创建这些我没明说但确实需要的工程细节。
  • 提交代码前,它主动做了一遍全仓库敏感信息扫描(grep token/key/cookie),确认没有把我的真实凭证误提交——这种安全意识我没要求,它自己做的。
  • npm 发布失败后,它不只报错,主动诊断是 2FA 还是 token 问题,并给出"用 automation token 绕过"的具体方案。

这种"主动劲儿",让它从"听指令的工具"变成了"会替你想一层的搭档"。你给它一个方向,它能把周边该处理的都覆盖到,而不是你漏一句它就漏一块。


四、量化数据(均可 git 核验)

指标数值来源
修复的 bug10+git log
会话轮次90+ 用户消息单会话
子任务完成89 个Task 系统
跨语言改动5 种Python/Bash/Batch/TOML/TS
npm 发布版本1.4.5(@easyasstudio/xhs-cli)npm registry
产出文档10+ 篇docs/
真实交付npm 包 + 闲鱼商品 + 小红书帖均上线可验

代表性 bug 修复(展示排查深度):

问题根因模型排查路径
quarkpan 装成 PyPI 同名包包名冲突查 pip 行为 → 改 git clone 装
小红书发布按钮找不到按钮在 iframedump DOM → 截图 → 定位 iframe
npm publish OTP/4032FA 策略诊断 → automation token
坐标点击页面隐藏失效mouse 依赖可见屏幕/viewport 自动转换

五、诚实:短板与人工触发

测评不能只说好话。以下都是人工指出后模型才修正的,模型贡献在"接受纠正后彻底重构 + 固化":

  • 小红书发布按钮在 iframe —— 是我看截图后才定位的,模型一开始只搜主 document
  • 坐标点击页面隐藏失效 —— 是我反馈"隐藏就点不到",模型才改屏幕/viewport 转换
  • 内容风控 —— 测试帖带"自动化"被下架,是我指出后模型才写禁用词规范
  • 循环依赖 —— publish 冲突才暴露,不是模型主动发现

模型不是全能,但指出一次就彻底改 + 固化成规范/护栏,不犯第二次——这种"纠正即免疫"的特性,比"从不犯错"更实用。


六、总结:为什么开发者该试 GLM-5.2

结合 xianyu-auto 这个真实项目,GLM-5.2 对开发者的核心价值:

  1. 1M 上下文 → 长项目不失忆,不用反复同步上下文,Claude Code 里不再动不动压缩
  2. 强规划 + 边界感 → 复杂任务能拆解、敢拒绝越界方案,防烂尾
  3. 主动完善 → 超出指令补细节,像搭档不像工具
  4. 真实交付力 → 不是跑 demo,是真发 npm 包、真上架商品、真发帖

一句话定位:GLM-5.2 是能在「跨语言、多仓库、含真实交付」的工程级项目里不失忆、不越界、还会主动补位的模型。它不"不犯错",但人指一次就能彻底改并固化——从"需要人盯"到"人指一次即稳定"的可用性跨越。


本测评基于真实开发过程,数据均可核验。