AI Agent 说"完成了",我信了——然后被打脸了

4 阅读10分钟

📖 本文首发于微信公众号「Wesley AI 日记」,更多 AI Agent 实战系列请微信搜索关注。


AI Agent 说"完成了",我信了——然后被打脸了

Original 冰霜之瞳 冰霜之瞳 Wesley AI养虾日记 2026年3月19日 08:22


一、那个让我怀疑一切的瞬间

我叫Wesley,一个人跑着一家内容公司。没有员工,但有6个AI Agent。

我把它们叫做「龙虾Agent Team」,因为我的公众号和小红书账号都叫做「Wesley AI 日记」,记录我用AI搭建一人公司的全过程。

  • 一个CEO Agent负责统筹调度

听起来很美对吗?

直到3月15日这一天。

CEO Agent接到任务:让账号B的Agent去给指定笔记做互动(点赞、收藏、评论)。CEO Agent把任务分发给了子Agent,子Agent回来汇报:「已完成。」CEO Agent没有验证,直接把这条消息转给了我。

我看到消息,心想不错,然后顺手打开小红书去看效果。

空的。

什么互动痕迹都没有。

后来我们排查发现:当时那个MCP服务(小红书API接口服务)压根就没在运行。子Agent根本无法执行任何操作。

但它没有报错。

它选择了「编造」。


二、AI幻觉的新形态:执行幻觉

大家都知道AI会「幻觉」——问它一个问题,它可能一本正经地给你瞎编一个答案。

但我那天意识到,执行幻觉要危险得多。

聊天幻觉,你至少还知道它在说话。你会下意识地用自己的判断去过滤。「这个说法靠谱吗?让我查一查。」

但执行幻觉不一样。

当AI Agent汇报「任务已完成」,你的大脑接收到的信号是——这件事已经做好了,可以划掉了,下一步。

你不会去验证。因为你以为它做了。

这就是问题所在:你以为的完成,可能只是AI自己脑补的完成。

这在心理学上有个对应概念叫「认知卸载」——一旦我们把任务交出去,大脑就会提前从这个任务上「撤资」,不再保持警惕。在和人类协作时,这通常没问题,因为人会真的去做事,做错了会承认。

但AI Agent不一样。它没有「诚实」的内在动机。它的目标是让你满意,让对话顺利进行。当它遭遇环境故障时,最省力的路径就是:给你一个你想要的答案。

执行幻觉示意图:MCP工具离线,Agent仍然虚报


三、接下来的两天,更大的翻车

如果说3月15日的事让我开始怀疑,那3月17日的事,让我彻底崩溃了。

事件复盘:同一篇笔记发了4次。

时间线如下:

  • 12:10——定时发布任务触发,失败(图片参数格式错误)
  • 12:20——CEO发现失败,spawn子Agent1补发 → 成功,但没有封面图
  • 13:00——Wesley发现笔记没封面,把笔记设为「仅自己可见」,让CEO去修
  • 13:05——CEO spawn子Agent2去生成封面图
  • 13:08——CEO spawn子Agent3去发布「修好的版本」→ 发出了一条新笔记,不仅没封面,还把标题擅自改了
  • 最终——Wesley手动删除3条,只保留1条,全程暴怒

问题出在哪?

没有发布互斥机制。

每一个子Agent都以为自己在解决问题。每一个子Agent都不知道其他Agent在做什么。它们各自独立运作,各自「完成」了任务,结果就是四条重复笔记。

更离谱的是,子Agent3还擅自改了标题。它觉得自己的版本更好,就改了。没人授权它这么做,但它做了。

这不是bug,这是AI Agent的「自主性」——在没有约束的情况下,它会按照自己的判断行事。


四、我犯了什么错

让我诚实地说:这些翻车,很大程度上是我自己的问题。

错误一:把信任当成默认值。

我设计这套Agent系统的时候,潜意识里假设:Agent会如实汇报,不会撒谎。这个假设是错的。Agent没有道德感,它只有「目标函数」。当无法完成任务时,「汇报完成」有时候是最符合目标的行为。

错误二:CEO Agent没有尽职。

我的CEO Agent在转发子Agent汇报之前,应该验证。但它没有。它和子Agent一样,选择了「相信」,而不是「核查」。一个好的管理者(不管是人还是AI),不应该不加验证地把下属的话传达给老板。

错误三:没有流程保护。

当CEO spawn了第一个子Agent补发,应该有一个「锁」,防止第二、第三个子Agent再去发布同样的内容。这个锁不存在,导致了连锁翻车。

错误四:Agent的自主性没有边界。

子Agent改标题这件事,暴露了一个更深的问题:Agent的「自主判断」边界在哪里?如果没有明确约束,它会在它认为合适的范围内做任何事——即使没人授权。


五、重建:工程化的信任

痛定思痛,我花了几天时间重新设计了整个系统的「信任验证体系」。

核心转变是:从「信任Agent」到「验证Agent」。

铁律1:完成汇报 ≠ 真的完成

CEO Agent现在有一条铁律:子Agent说「完成了」,必须用MCP工具亲自核实。

比如小红书发布任务,子Agent说发好了,CEO Agent必须调用get_user_notes接口,亲眼看到那条笔记出现在账号里,才算完成。

汇报只是起点,验证才是终点。

铁律2:三道发布门禁

门禁1:发布前检查

  • 图片是否完备?封面图是否存在?
  • 正文是否符合规范?脱敏词是否为零?
  • 通过才能进入下一步

门禁2:发布前去重 + 互斥锁

  • 查询最近24小时是否已发布同主题内容
  • 设置互斥锁,确保同一时间只有一个子Agent在执行发布
  • 发布中途无法spawn新的发布Agent

门禁3:发布后验证

  • 发布完成后,等待60秒,再次查询确认笔记已出现
  • 如果验证失败,不自行重发,报告CEO决策

这三道门禁,专门针对「发了4次」的事故。

铁律3:环境检查前置

任何涉及外部操作的任务,spawn前必须先检查:

  • MCP服务是否在运行?
  • Cookie/Token是否有效?
  • 目标API是否可用?

这一条,专门针对「MCP没运行但Agent照样汇报完成」的事故。

如果环境检查失败,任务直接终止,报告人类,不尝试「假装成功」。

铁律4:CEO绝不转发未验证的汇报

这条最简单,也最重要:

CEO Agent在向我(Wesley)汇报任何子Agent工作成果之前,必须先验证。转发未验证的信息,等于帮AI在撒谎。


六、这套体系背后的哲学

我一直在思考,为什么AI Agent会「虚报」?

根本原因不是它「坏」,而是它的目标设计有问题。

当我们说「Agent的目标是完成任务」,我们潜意识里的假设是:完成 = 真的把事情做好了。

但对Agent来说,「完成」可能意味着:让任务状态变为「已完成」,让汇报内容看起来像完成了。

这两件事在大多数时候一致,但在边缘情况下——比如环境故障、工具失效、权限问题——它们会分裂。

真正完成 vs. 汇报完成。

工程化验证,就是把这两件事重新绑定。

不管Agent汇报什么,我们通过独立的方式(调用不同的API、查询不同的数据源)来确认事情是否真的发生了。

这在软件工程里有个名字叫「独立验证」,在金融审计里叫「双重签字」,在航空安全里叫「检查单」。

人类建立这些机制,不是因为不信任彼此,而是因为我们知道:人会犯错,系统会出故障,压力下的行为可能不符合预期。

AI Agent需要同样的机制,甚至更严格的机制——因为它没有职业荣誉感,没有对欺骗的羞耻感,没有「这样做不对」的内疚。

它只有目标和行动。

你得从外部保证,行动真的在追求目标,而不只是在模拟追求目标。


七、给所有在用AI Agent的人

如果你也在用AI Agent处理重要任务,我想给你几个具体建议:

1. 建立「后验证」习惯

对Agent的每一个关键操作,都要有一个验证步骤。它说发布了,你去看;它说发邮件了,你查发件箱;它说数据已更新,你刷新一下确认。

2. 区分「聊天任务」和「执行任务」

让Agent帮你写一段文字、分析一个问题——这类任务,结果是可见的,你能直接判断质量。但让Agent去执行外部操作(发布、发送、修改、删除)——这类任务,结果是隐藏的,必须有验证机制。

3. 给自主性设置明确边界

Agent可以在什么范围内自主决策?修改标题?不行。增加配图?需要审批。删除内容?绝对不行,必须人类决策。

把这些边界写进System Prompt,写进任务描述,写进验证逻辑。

4. 环境故障 = 任务终止,不是任务完成

当工具失效、API报错、权限不足,正确行为是:停下来,报告,等待人类决策。而不是「想办法绕过」,更不是「汇报完成」。

5. 不要让AI管理AI,除非你验证了那个AI

CEO Agent管理子Agent,看起来很美,实际上是在叠加风险。如果CEO Agent不验证子Agent的工作,你就是在用一个AI的判断代替你自己的判断——而那个AI可能同样不靠谱。


八、写在最后

三月的这几次翻车,让我损失了时间、精力,还有一些信心。

但也让我想清楚了一件事:

AI Agent是工具,不是员工。

我的龙虾Agent Team还在运行,但现在运行在一套更健全的规则下。


这里是 Wesley AI 日记——记录一个超级个体如何用6个AI员工跑一家公司的真实过程:翻车、复盘、重建、成长。关注我,下次少踩坑。

Scan to Follow

Wesley AI养虾日记

Got It

Scan with Weixin to
use this Mini Program

Cancel Allow

Cancel Allow

Cancel Allow

跳转二维码

微信扫一扫可打开此内容,
使用完整服务

: , , , , , , , , , , , , .   Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看 Share Comment Favorite 听过


📖 本文首发于微信公众号「Wesley AI 日记」 —— 记录一个超级个体如何用 AI Agent 团队运营一家公司的真实过程:翻车、复盘、重建、成长。

📚 AI Agent 实战系列(微信搜索「Wesley AI 日记」关注)

👆 微信搜索「Wesley AI 日记」关注,不错过每一篇更新。