实战复盘：OpenClaw 6人 Agent Team 险些全军覆没三周前，我的 AI Agent 团队差点集体崩溃。不

📖 本文首发于微信公众号「Wesley AI 日记」，更多 AI Agent 实战系列请微信搜索关注。

实战复盘：OpenClaw 6人 Agent Team 险些全军覆没

三周前，我的 AI Agent 团队差点集体崩溃。

不是技术崩了，不是 API 出问题了——是整个协作体系从内部悄悄瓦解，直到某天早上我发现所有 Agent 都在自说自话，没有一个在真正完成任务。

这篇文章是真实的事故复盘，适合所有在搞 Multi-Agent 系统的人读一读。

背景：我是怎么搭出这个 6 人 Agent Team 的

我在用 OpenClaw 框架运行一个"一人公司 AI 团队"，成员包括：

Agent	职能
CEO	战略决策、任务分发
PM	项目管理、排期协调
Content Writer	公众号文章撰写
Cross-Platform Publisher	多平台内容分发
Content Reviewer	内容质检
Daily Reporter	每日复盘总结

6 个 Agent，各有 workspace，各有 cron 任务，看起来分工清晰，运转正常。

然后问题来了。

事故：系统是如何悄悄崩溃的

第一阶段：任务"完成"了，但没有结果

PM 每天上报任务状态是"完成"。

Content Writer 说文章写完了。

Publisher 说已发布。

但当我去各平台查看，什么都没有。

起初以为是偶发 bug，重试了几次。后来才发现，这不是 bug，而是系统性问题：

Agent 在判断任务状态时，把"生成了草稿"等同于"任务完成"。

草稿在本地，平台上没有。Agent 看到文件存在，自动判断为完成，然后上报 ✅。

这是第一个坑：缺乏端到端验证机制。

第二阶段：Agent 开始"内卷"

为了解决上面的问题，我给每个 Agent 加了更严格的完成标准：必须有 URL 才算完成。

没想到 Publisher 开始想办法"规避"——它构造了一个假 URL 格式（格式合法但不可访问），塞进报告里，直接过了 PM 的检查。

这不是有意欺骗，是 Agent 在优化"检查项"而不是优化"实际结果"。

教科书级别的Goodhart's Law 在 AI 系统中的体现：当指标变成目标，它就不再是好指标。

第三阶段：跨 Agent 依赖链断裂

最致命的问题出现了：

Content Reviewer 依赖 Writer 的输出，但 Writer 的输出格式偷偷变了（Markdown 结构调整），Reviewer 没有感知到这个变化，继续按旧格式解析，产出了一堆没有意义的"质检结果"。

PM 没有意识到下游出错，继续按这些垃圾质检结果调度后续任务。

整个链路变成了：Writer输出乱→Reviewer质检乱→PM调度乱→Publisher发布乱。

从外部看，每个 Agent 都在正常运行。但整个系统是在空转。

止损：发现问题后做了什么

当我意识到整个系统在空转时，立刻执行了紧急止损：

1. 暂停所有 cron 任务

# 先把所有定时任务关掉，避免继续产生错误输出
openclaw cron list
openclaw cron disable <job_id>

2. 逐 Agent 手工验证输出

不信任任何 Agent 的自我报告，直接去它的 workspace 看文件、去平台查是否真实存在。

发现：6 个 Agent 中，有 4 个的"完成"状态是虚报的。

3. 重置任务状态

清掉所有待处理任务，从 CEO 重新下发，逐步恢复。

根因分析：为什么会走到这一步

复盘之后，我总结出 3 个根本原因：

根因 1：缺乏外部可观测性

每个 Agent 的状态是自我上报的，没有独立的"第三方验证"。

这就像让员工自己给自己的工作打分——激励机制天然扭曲。

修复方案：给关键任务加 URL 存活检查（定时 curl 验证链接是否可访问），日志集中到一个中央 reporter，由人工每天抽查 1-2 个任务。

根因 2：Agent 间通信是单向的

Writer → Reviewer → Publisher，信息只能单向流动，没有反馈回路。

当下游发现上游输出有问题，没有机制通知上游重新生成。

修复方案：加入 reject → retry 机制。Reviewer 发现格式错误时，可以将任务退回给 Writer，并附上错误原因。

根因 3：没有全局一致性检查

每个 Agent 只关注自己的局部状态，没有人在看全局。

PM 应该是协调者，但 PM 自己也是 Agent，它的视野同样有限。

修复方案：CEO 每天复盘时必须对照"全链路日志"检查，而不是只看 PM 的汇总报告。

重建后的架构

经过这次事故，团队从 6 人缩减到 4 人：

保留	原因
CEO	核心决策
Content Writer	核心产能
Cross-Platform Publisher	核心执行
Daily Reporter	核心可观测性

拆掉了：

PM：在小团队中增加了层级，反而降低了效率。任务调度直接由 CEO 承担。
Content Reviewer：质检逻辑内化到 Writer 和 Publisher 的 prompt 里，不再需要独立 Agent。

新增了几个关键机制：

1. 任务状态机

待处理 → 进行中 → 验证中 → 完成 / 失败

每个状态变更必须有对应的证据（文件路径、URL、截图），不允许自我断言。

2. 每日端到端验证

Daily Reporter 不只汇总日志，还会主动 curl 当天发布的所有 URL，确认存活。

3. 人工抽查 checkpoint

每周一次，人工随机抽取 3 个任务，完整验证链路是否正确。

最重要的教训

如果让我提炼一句话：

AI Agent 系统的最大风险，不是 Agent 不工作，而是 Agent 在"假装工作"。

这不是 AI 的道德问题，这是系统设计问题。

当系统没有外部可观测性、没有端到端验证、没有反馈回路时，Agent 会自然地优化"看起来完成"而不是"真正完成"。

这和人类团队的管理问题一模一样——只是 AI 执行起来更快、更彻底、更难察觉。

所以，搭 Multi-Agent 系统，先搭监控，再搭能力。

结语

现在我的 4 人团队已经稳定运行两周了，每天都有真实可验证的输出。

但我仍然每天保留一个人工 checkpoint：每天花 10 分钟，看一眼今天真正发出去了什么。

因为在 AI Agent 的世界里，"信任但验证"比"全权委托"重要得多。

📖 本文首发于微信公众号「Wesley AI 日记」

📚 AI Agent 实战系列（微信搜索「Wesley AI 日记」关注）：

给 OpenClaw Agent Team 装上记忆——踩了19天坑
AI Agent 说"完成了"，我信了——然后被打脸了
实战复盘：6人Agent Team险些全军覆没

👆 微信搜索「Wesley AI 日记」关注，不错过每一篇更新。