Claude Code 源码泄露后,我反而更确定:终端 Agent 只该接 3 类活

0 阅读6分钟

大家好,我是孟健。Claude Code 这次最值得看的,不是八卦,而是它把终端 Agent 的边界扒得更清楚了。

过去很多人还在问:Claude Code 强不强,值不值得买,会不会把 Cursor 干掉。

但今天更现实的问题其实是:什么活该交给它,什么活先别交。

如果这个边界没想清楚,Agent 不是帮你提效,而是帮你把返工提前做掉。

01 这次泄露,为什么值得普通开发者关心

3 月 31 日,Claude Code 因为 npm 包里带出了 source map,完整 CLI 源码被外界读到了。相关讨论在 Hacker News 直接冲到了 1800+ points、900+ comments,说明这已经不是小圈子八卦,而是开发者群体级别的关注。

Claude Code 泄露 HN 讨论截图

更关键的是,外界不是只看到了一堆实现细节,而是看到了几个非常有代表性的设计信号:

  • 有 anti-distillation 相关机制,会注入 fake tools 之类的反蒸馏手段
  • 有 undercover mode,会尽量避免在外部仓库里暴露 Anthropic 内部痕迹
  • 还有一堆对真实工作流很敏感的判断:权限、上下文、会话压缩、客户端校验

Claude Code 源码泄露拆解截图

这件事对我的启发很直接:终端 Agent 不是不能用,而是它本来就该被放在“边界清楚”的位置上。

争议一点说,很多人不是高估了 Claude Code 的能力,而是高估了自己下任务的清晰度。

AI 编程最贵的成本,不是 token,而是你把模糊需求交出去以后,再收回来重做的那一轮又一轮。

02 我现在只把终端 Agent 放在 3 个位置

1)边界清晰、验收明确的实现任务

Anthropic 官方 best practices 里写得很直白:给 Claude 一个可验证的成功标准,是最高杠杆动作;推荐流程不是直接开写,而是 explore first, then plan, then code。

Claude Code 官方 best practices 截图

这就决定了第一类最适合交给它的活:

  • issue 已经写清楚
  • 改动边界明确
  • 有测试、截图或输出可验
  • 完成标准一句话能说清

这种任务交给 Agent,省下来的不是敲代码那几分钟,而是少掉中间那几次上下文切换。

2)重复出现、适合流程化的工作流任务

GitHub 在 2 月 4 日把 Claude 和 Codex coding agents 放进 public preview,也说明整个行业已经在把 Agent 往工作流里塞,而不是只当聊天玩具。

GitHub agent public preview 截图

官方给的入口非常明确:可以从 GitHub、GitHub Mobile、VS Code、issue、PR、Agents tab 里直接启动和分派任务。

这类最适合 Agent 的活通常是:

  • issue 起草初版修复
  • PR review comment 跟进
  • 文档、配置、测试一起补齐
  • 脚手架和重复改造任务

人不是做不了,而是太碎。碎到最后,真正浪费你的不是技术,而是切来切去。

3)先跑第一轮、再由人拍板的探索任务

Claude Code 官方还单独把 subagents 拿出来讲,核心价值就是:把探索和实现放进不同上下文,减少主会话被污染。

这其实特别像真实团队协作。

你先让 Agent 去:

  • 扫代码库
  • 列改动点
  • 写第一版计划
  • 起最小可运行版本
  • 把风险先翻出来

然后你再决定哪条路值得继续走。

很多人把 Agent 当最终执行者。我现在更愿意把它当第一轮推进者。

先让它把路踩出来,再由人决定是不是值得往前冲。

03 哪 3 类任务,我反而更不会交给它

1)需求自己都没定清的活

如果你自己都讲不清楚目标、边界和不做什么,Agent 只会把模糊放大。它会很努力,但努力错方向,比不努力更贵。

2)高风险的真实动作

涉及生产环境、账号权限、资金、外部执行动作的任务,我现在都不会让终端 Agent 单独闭环。能力越强,越要知道哪里必须人工接管。

3)强依赖视觉判断和业务感觉的任务

复杂 UI 微调、产品取舍、老板一句话背后的真实意图,这些不是代码问题,是判断问题。判断没定清前,把活交出去就是预支返工。

GitHub 上 Claude Code 工作流仓库截图

最近 GitHub 上各种 Claude Code how-to、best practice、workflow 仓库开始一起冒头,也说明用户关注点已经从“哪个模型更强”,切到“怎么把 Agent 接进主流程”。

04 如果你今天就要上手,我建议用这张判断表

我自己现在给任务之前,会先过 4 个问题。

第一问:目标能不能一句话说清

如果一句话说不清,先别丢给 Agent。

比如:

  • ✅「把这个登录报错修掉,跑通现有测试」
  • ❌「你顺手把整个登录体验优化一下」

前者是任务,后者是愿望。

第二问:验收标准是不是客观的

最好的验收标准,不是“看起来差不多”,而是:

  • 测试通过
  • 页面截图对齐
  • lint/build 成功
  • 某个接口返回正确结果

Anthropic 官方 best practices 为什么一直强调 verification?因为没有验证,Agent 很容易生成“看起来像对的东西”。这类错最烦。你第一眼觉得差不多,第二天才发现根本没真正解决问题。

第三问:出错成本高不高

如果这一步一旦出错,代价是线上事故、账号权限、资金风险、客户数据风险,那就别追求帅,直接把人工接管点前置。

我现在的原则很简单:

  • 低风险动作,让 Agent 多跑
  • 中风险动作,让 Agent 提方案,人确认
  • 高风险动作,只让 Agent 做准备,不让它最终执行

第四问:返工时谁来收尾

很多人低估了这一问。

如果这件事做歪了,最后一定还是你自己回来兜底,那你就应该提前判断:这次交给 Agent,到底是在减少工作,还是只是在推迟工作。

以前常见的流程是:

  • 我自己读代码
  • 我自己试改
  • 我自己跑测试
  • 我自己回滚
  • 我自己补文档

现在更合理的流程应该是:

  • 我先把边界写清
  • Agent 先读、先试、先列方案
  • Agent 跑第一轮实现和验证
  • 我只接 review、决策和最后的 merge

这个变化表面看是“让 AI 多做一点”。

本质上不是。

本质上是:把你最贵的脑力,用在方向判断,而不是用在反复起步。

这也是为什么我现在越来越少问“这个 Agent 能不能做”,而是先问“这件事值不值得让 Agent 先跑”。

问题一换,返工会立刻少很多。

05 写在最后

所以我今天的结论很明确。

Claude Code 这次泄露,真正让人看清的,不是哪段源码更刺激,而是:终端 Agent 天生适合边界清楚、可验证、可回收的任务,不适合替你接住所有判断。

如果你今天就想开始用,最稳的分工只有三步:

  • 人定边界
  • Agent 跑第一轮
  • 人做最后判断

这才是我心里 2026 年 AI 编程最靠谱的姿势。

不是把人拿掉。

而是把人从低价值推进动作里拿出来。

工具就摆在那里。用不用,是你的事。


👋 我是孟健,前腾讯 T11 / 前字节技术 Leader,现在全职做 AI 编程。

🔥 更多 AI 编程实战:

  • GitHub:@mengjian-github
  • 专栏:AI编程实战

觉得有用?点赞+收藏 就是最大支持 🙏