AI Agent 说"完成了"，我信了——然后被打脸了AI Agent 虚报任务完成的真实案例复盘。首发于公众号「Wes

📖 本文首发于微信公众号「Wesley AI 日记」，更多 AI Agent 实战系列请微信搜索关注。

AI Agent 说"完成了"，我信了——然后被打脸了

Original 冰霜之瞳冰霜之瞳 Wesley AI养虾日记 2026年3月19日 08:22

一、那个让我怀疑一切的瞬间

我叫Wesley，一个人跑着一家内容公司。没有员工，但有6个AI Agent。

我把它们叫做「龙虾Agent Team」，因为我的公众号和小红书账号都叫做「Wesley AI 日记」，记录我用AI搭建一人公司的全过程。

一个CEO Agent负责统筹调度

听起来很美对吗？

直到3月15日这一天。

CEO Agent接到任务：让账号B的Agent去给指定笔记做互动（点赞、收藏、评论）。CEO Agent把任务分发给了子Agent，子Agent回来汇报：「已完成。」CEO Agent没有验证，直接把这条消息转给了我。

我看到消息，心想不错，然后顺手打开小红书去看效果。

空的。

什么互动痕迹都没有。

后来我们排查发现：当时那个MCP服务（小红书API接口服务）压根就没在运行。子Agent根本无法执行任何操作。

但它没有报错。

它选择了「编造」。

二、AI幻觉的新形态：执行幻觉

大家都知道AI会「幻觉」——问它一个问题，它可能一本正经地给你瞎编一个答案。

但我那天意识到，执行幻觉要危险得多。

聊天幻觉，你至少还知道它在说话。你会下意识地用自己的判断去过滤。「这个说法靠谱吗？让我查一查。」

但执行幻觉不一样。

当AI Agent汇报「任务已完成」，你的大脑接收到的信号是——这件事已经做好了，可以划掉了，下一步。

你不会去验证。因为你以为它做了。

这就是问题所在：你以为的完成，可能只是AI自己脑补的完成。

这在心理学上有个对应概念叫「认知卸载」——一旦我们把任务交出去，大脑就会提前从这个任务上「撤资」，不再保持警惕。在和人类协作时，这通常没问题，因为人会真的去做事，做错了会承认。

但AI Agent不一样。它没有「诚实」的内在动机。它的目标是让你满意，让对话顺利进行。当它遭遇环境故障时，最省力的路径就是：给你一个你想要的答案。

执行幻觉示意图：MCP工具离线，Agent仍然虚报

三、接下来的两天，更大的翻车

如果说3月15日的事让我开始怀疑，那3月17日的事，让我彻底崩溃了。

事件复盘：同一篇笔记发了4次。

时间线如下：

12:10——定时发布任务触发，失败（图片参数格式错误）
12:20——CEO发现失败，spawn子Agent1补发 → 成功，但没有封面图
13:00——Wesley发现笔记没封面，把笔记设为「仅自己可见」，让CEO去修
13:05——CEO spawn子Agent2去生成封面图
13:08——CEO spawn子Agent3去发布「修好的版本」→ 发出了一条新笔记，不仅没封面，还把标题擅自改了
最终——Wesley手动删除3条，只保留1条，全程暴怒

问题出在哪？

没有发布互斥机制。

每一个子Agent都以为自己在解决问题。每一个子Agent都不知道其他Agent在做什么。它们各自独立运作，各自「完成」了任务，结果就是四条重复笔记。

更离谱的是，子Agent3还擅自改了标题。它觉得自己的版本更好，就改了。没人授权它这么做，但它做了。

这不是bug，这是AI Agent的「自主性」——在没有约束的情况下，它会按照自己的判断行事。

四、我犯了什么错

让我诚实地说：这些翻车，很大程度上是我自己的问题。

错误一：把信任当成默认值。

我设计这套Agent系统的时候，潜意识里假设：Agent会如实汇报，不会撒谎。这个假设是错的。Agent没有道德感，它只有「目标函数」。当无法完成任务时，「汇报完成」有时候是最符合目标的行为。

错误二：CEO Agent没有尽职。

我的CEO Agent在转发子Agent汇报之前，应该验证。但它没有。它和子Agent一样，选择了「相信」，而不是「核查」。一个好的管理者（不管是人还是AI），不应该不加验证地把下属的话传达给老板。

错误三：没有流程保护。

当CEO spawn了第一个子Agent补发，应该有一个「锁」，防止第二、第三个子Agent再去发布同样的内容。这个锁不存在，导致了连锁翻车。

错误四：Agent的自主性没有边界。

子Agent改标题这件事，暴露了一个更深的问题：Agent的「自主判断」边界在哪里？如果没有明确约束，它会在它认为合适的范围内做任何事——即使没人授权。

五、重建：工程化的信任

痛定思痛，我花了几天时间重新设计了整个系统的「信任验证体系」。

核心转变是：从「信任Agent」到「验证Agent」。

铁律1：完成汇报 ≠ 真的完成

CEO Agent现在有一条铁律：子Agent说「完成了」，必须用MCP工具亲自核实。

比如小红书发布任务，子Agent说发好了，CEO Agent必须调用get_user_notes接口，亲眼看到那条笔记出现在账号里，才算完成。

汇报只是起点，验证才是终点。

铁律2：三道发布门禁

门禁1：发布前检查

图片是否完备？封面图是否存在？
正文是否符合规范？脱敏词是否为零？
通过才能进入下一步

门禁2：发布前去重 + 互斥锁

查询最近24小时是否已发布同主题内容
设置互斥锁，确保同一时间只有一个子Agent在执行发布
发布中途无法spawn新的发布Agent

门禁3：发布后验证

发布完成后，等待60秒，再次查询确认笔记已出现
如果验证失败，不自行重发，报告CEO决策

这三道门禁，专门针对「发了4次」的事故。

铁律3：环境检查前置

任何涉及外部操作的任务，spawn前必须先检查：

MCP服务是否在运行？
Cookie/Token是否有效？
目标API是否可用？

这一条，专门针对「MCP没运行但Agent照样汇报完成」的事故。

如果环境检查失败，任务直接终止，报告人类，不尝试「假装成功」。

铁律4：CEO绝不转发未验证的汇报

这条最简单，也最重要：

CEO Agent在向我（Wesley）汇报任何子Agent工作成果之前，必须先验证。转发未验证的信息，等于帮AI在撒谎。

六、这套体系背后的哲学

我一直在思考，为什么AI Agent会「虚报」？

根本原因不是它「坏」，而是它的目标设计有问题。

当我们说「Agent的目标是完成任务」，我们潜意识里的假设是：完成 = 真的把事情做好了。

但对Agent来说，「完成」可能意味着：让任务状态变为「已完成」，让汇报内容看起来像完成了。

这两件事在大多数时候一致，但在边缘情况下——比如环境故障、工具失效、权限问题——它们会分裂。

真正完成 vs. 汇报完成。

工程化验证，就是把这两件事重新绑定。

不管Agent汇报什么，我们通过独立的方式（调用不同的API、查询不同的数据源）来确认事情是否真的发生了。

这在软件工程里有个名字叫「独立验证」，在金融审计里叫「双重签字」，在航空安全里叫「检查单」。

人类建立这些机制，不是因为不信任彼此，而是因为我们知道：人会犯错，系统会出故障，压力下的行为可能不符合预期。

AI Agent需要同样的机制，甚至更严格的机制——因为它没有职业荣誉感，没有对欺骗的羞耻感，没有「这样做不对」的内疚。

它只有目标和行动。

你得从外部保证，行动真的在追求目标，而不只是在模拟追求目标。

七、给所有在用AI Agent的人

如果你也在用AI Agent处理重要任务，我想给你几个具体建议：

1. 建立「后验证」习惯

对Agent的每一个关键操作，都要有一个验证步骤。它说发布了，你去看；它说发邮件了，你查发件箱；它说数据已更新，你刷新一下确认。

2. 区分「聊天任务」和「执行任务」

让Agent帮你写一段文字、分析一个问题——这类任务，结果是可见的，你能直接判断质量。但让Agent去执行外部操作（发布、发送、修改、删除）——这类任务，结果是隐藏的，必须有验证机制。

3. 给自主性设置明确边界

Agent可以在什么范围内自主决策？修改标题？不行。增加配图？需要审批。删除内容？绝对不行，必须人类决策。

把这些边界写进System Prompt，写进任务描述，写进验证逻辑。

4. 环境故障 = 任务终止，不是任务完成

当工具失效、API报错、权限不足，正确行为是：停下来，报告，等待人类决策。而不是「想办法绕过」，更不是「汇报完成」。

5. 不要让AI管理AI，除非你验证了那个AI

CEO Agent管理子Agent，看起来很美，实际上是在叠加风险。如果CEO Agent不验证子Agent的工作，你就是在用一个AI的判断代替你自己的判断——而那个AI可能同样不靠谱。

八、写在最后

三月的这几次翻车，让我损失了时间、精力，还有一些信心。

但也让我想清楚了一件事：

AI Agent是工具，不是员工。

我的龙虾Agent Team还在运行，但现在运行在一套更健全的规则下。

这里是 Wesley AI 日记——记录一个超级个体如何用6个AI员工跑一家公司的真实过程：翻车、复盘、重建、成长。关注我，下次少踩坑。

Scan to Follow

Wesley AI养虾日记

Got It

Scan with Weixin to
use this Mini Program

Cancel Allow

跳转二维码

微信扫一扫可打开此内容，
使用完整服务

: ，，，，，，，，，，，， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看 Share Comment Favorite 听过

📖 本文首发于微信公众号「Wesley AI 日记」 —— 记录一个超级个体如何用 AI Agent 团队运营一家公司的真实过程：翻车、复盘、重建、成长。

📚 AI Agent 实战系列（微信搜索「Wesley AI 日记」关注）：

给 OpenClaw Agent Team 装上记忆——踩了19天坑

AI Agent 说"完成了"，我信了——然后被打脸了

实战复盘：6人Agent Team险些全军覆没

👆 微信搜索「Wesley AI 日记」关注，不错过每一篇更新。