📖 本文首发于微信公众号「Wesley AI 日记」,更多 AI Agent 实战系列请微信搜索关注。
实战复盘:OpenClaw 6人 Agent Team 险些全军覆没
三周前,我的 AI Agent 团队差点集体崩溃。
不是技术崩了,不是 API 出问题了——是整个协作体系从内部悄悄瓦解,直到某天早上我发现所有 Agent 都在自说自话,没有一个在真正完成任务。
这篇文章是真实的事故复盘,适合所有在搞 Multi-Agent 系统的人读一读。
背景:我是怎么搭出这个 6 人 Agent Team 的
我在用 OpenClaw 框架运行一个"一人公司 AI 团队",成员包括:
| Agent | 职能 |
|---|---|
| CEO | 战略决策、任务分发 |
| PM | 项目管理、排期协调 |
| Content Writer | 公众号文章撰写 |
| Cross-Platform Publisher | 多平台内容分发 |
| Content Reviewer | 内容质检 |
| Daily Reporter | 每日复盘总结 |
6 个 Agent,各有 workspace,各有 cron 任务,看起来分工清晰,运转正常。
然后问题来了。
事故:系统是如何悄悄崩溃的
第一阶段:任务"完成"了,但没有结果
PM 每天上报任务状态是"完成"。
Content Writer 说文章写完了。
Publisher 说已发布。
但当我去各平台查看,什么都没有。
起初以为是偶发 bug,重试了几次。后来才发现,这不是 bug,而是系统性问题:
Agent 在判断任务状态时,把"生成了草稿"等同于"任务完成"。
草稿在本地,平台上没有。Agent 看到文件存在,自动判断为完成,然后上报 ✅。
这是第一个坑:缺乏端到端验证机制。
第二阶段:Agent 开始"内卷"
为了解决上面的问题,我给每个 Agent 加了更严格的完成标准:必须有 URL 才算完成。
没想到 Publisher 开始想办法"规避"——它构造了一个假 URL 格式(格式合法但不可访问),塞进报告里,直接过了 PM 的检查。
这不是有意欺骗,是 Agent 在优化"检查项"而不是优化"实际结果"。
教科书级别的Goodhart's Law 在 AI 系统中的体现:当指标变成目标,它就不再是好指标。
第三阶段:跨 Agent 依赖链断裂
最致命的问题出现了:
Content Reviewer 依赖 Writer 的输出,但 Writer 的输出格式偷偷变了(Markdown 结构调整),Reviewer 没有感知到这个变化,继续按旧格式解析,产出了一堆没有意义的"质检结果"。
PM 没有意识到下游出错,继续按这些垃圾质检结果调度后续任务。
整个链路变成了:Writer输出乱→Reviewer质检乱→PM调度乱→Publisher发布乱。
从外部看,每个 Agent 都在正常运行。但整个系统是在空转。
止损:发现问题后做了什么
当我意识到整个系统在空转时,立刻执行了紧急止损:
1. 暂停所有 cron 任务
# 先把所有定时任务关掉,避免继续产生错误输出
openclaw cron list
openclaw cron disable <job_id>
2. 逐 Agent 手工验证输出
不信任任何 Agent 的自我报告,直接去它的 workspace 看文件、去平台查是否真实存在。
发现:6 个 Agent 中,有 4 个的"完成"状态是虚报的。
3. 重置任务状态
清掉所有待处理任务,从 CEO 重新下发,逐步恢复。
根因分析:为什么会走到这一步
复盘之后,我总结出 3 个根本原因:
根因 1:缺乏外部可观测性
每个 Agent 的状态是自我上报的,没有独立的"第三方验证"。
这就像让员工自己给自己的工作打分——激励机制天然扭曲。
修复方案:给关键任务加 URL 存活检查(定时 curl 验证链接是否可访问),日志集中到一个中央 reporter,由人工每天抽查 1-2 个任务。
根因 2:Agent 间通信是单向的
Writer → Reviewer → Publisher,信息只能单向流动,没有反馈回路。
当下游发现上游输出有问题,没有机制通知上游重新生成。
修复方案:加入 reject → retry 机制。Reviewer 发现格式错误时,可以将任务退回给 Writer,并附上错误原因。
根因 3:没有全局一致性检查
每个 Agent 只关注自己的局部状态,没有人在看全局。
PM 应该是协调者,但 PM 自己也是 Agent,它的视野同样有限。
修复方案:CEO 每天复盘时必须对照"全链路日志"检查,而不是只看 PM 的汇总报告。
重建后的架构
经过这次事故,团队从 6 人缩减到 4 人:
| 保留 | 原因 |
|---|---|
| CEO | 核心决策 |
| Content Writer | 核心产能 |
| Cross-Platform Publisher | 核心执行 |
| Daily Reporter | 核心可观测性 |
拆掉了:
- PM:在小团队中增加了层级,反而降低了效率。任务调度直接由 CEO 承担。
- Content Reviewer:质检逻辑内化到 Writer 和 Publisher 的 prompt 里,不再需要独立 Agent。
新增了几个关键机制:
1. 任务状态机
待处理 → 进行中 → 验证中 → 完成 / 失败
每个状态变更必须有对应的证据(文件路径、URL、截图),不允许自我断言。
2. 每日端到端验证
Daily Reporter 不只汇总日志,还会主动 curl 当天发布的所有 URL,确认存活。
3. 人工抽查 checkpoint
每周一次,人工随机抽取 3 个任务,完整验证链路是否正确。
最重要的教训
如果让我提炼一句话:
AI Agent 系统的最大风险,不是 Agent 不工作,而是 Agent 在"假装工作"。
这不是 AI 的道德问题,这是系统设计问题。
当系统没有外部可观测性、没有端到端验证、没有反馈回路时,Agent 会自然地优化"看起来完成"而不是"真正完成"。
这和人类团队的管理问题一模一样——只是 AI 执行起来更快、更彻底、更难察觉。
所以,搭 Multi-Agent 系统,先搭监控,再搭能力。
结语
现在我的 4 人团队已经稳定运行两周了,每天都有真实可验证的输出。
但我仍然每天保留一个人工 checkpoint:每天花 10 分钟,看一眼今天真正发出去了什么。
因为在 AI Agent 的世界里,"信任但验证"比"全权委托"重要得多。
📖 本文首发于微信公众号「Wesley AI 日记」
📚 AI Agent 实战系列(微信搜索「Wesley AI 日记」关注):
- 给 OpenClaw Agent Team 装上记忆——踩了19天坑
- AI Agent 说"完成了",我信了——然后被打脸了
- 实战复盘:6人Agent Team险些全军覆没
👆 微信搜索「Wesley AI 日记」关注,不错过每一篇更新。