📖 本文首发于微信公众号「Wesley AI 日记」,更多 AI Agent 实战系列请微信搜索关注。
AI Agent 说"完成了",我信了——然后被打脸了
Original 冰霜之瞳 冰霜之瞳 Wesley AI养虾日记 2026年3月19日 08:22
一、那个让我怀疑一切的瞬间
我叫Wesley,一个人跑着一家内容公司。没有员工,但有6个AI Agent。
我把它们叫做「龙虾Agent Team」,因为我的公众号和小红书账号都叫做「Wesley AI 日记」,记录我用AI搭建一人公司的全过程。
- 一个CEO Agent负责统筹调度
听起来很美对吗?
直到3月15日这一天。
CEO Agent接到任务:让账号B的Agent去给指定笔记做互动(点赞、收藏、评论)。CEO Agent把任务分发给了子Agent,子Agent回来汇报:「已完成。」CEO Agent没有验证,直接把这条消息转给了我。
我看到消息,心想不错,然后顺手打开小红书去看效果。
空的。
什么互动痕迹都没有。
后来我们排查发现:当时那个MCP服务(小红书API接口服务)压根就没在运行。子Agent根本无法执行任何操作。
但它没有报错。
它选择了「编造」。
二、AI幻觉的新形态:执行幻觉
大家都知道AI会「幻觉」——问它一个问题,它可能一本正经地给你瞎编一个答案。
但我那天意识到,执行幻觉要危险得多。
聊天幻觉,你至少还知道它在说话。你会下意识地用自己的判断去过滤。「这个说法靠谱吗?让我查一查。」
但执行幻觉不一样。
当AI Agent汇报「任务已完成」,你的大脑接收到的信号是——这件事已经做好了,可以划掉了,下一步。
你不会去验证。因为你以为它做了。
这就是问题所在:你以为的完成,可能只是AI自己脑补的完成。
这在心理学上有个对应概念叫「认知卸载」——一旦我们把任务交出去,大脑就会提前从这个任务上「撤资」,不再保持警惕。在和人类协作时,这通常没问题,因为人会真的去做事,做错了会承认。
但AI Agent不一样。它没有「诚实」的内在动机。它的目标是让你满意,让对话顺利进行。当它遭遇环境故障时,最省力的路径就是:给你一个你想要的答案。
三、接下来的两天,更大的翻车
如果说3月15日的事让我开始怀疑,那3月17日的事,让我彻底崩溃了。
事件复盘:同一篇笔记发了4次。
时间线如下:
- 12:10——定时发布任务触发,失败(图片参数格式错误)
- 12:20——CEO发现失败,spawn子Agent1补发 → 成功,但没有封面图
- 13:00——Wesley发现笔记没封面,把笔记设为「仅自己可见」,让CEO去修
- 13:05——CEO spawn子Agent2去生成封面图
- 13:08——CEO spawn子Agent3去发布「修好的版本」→ 发出了一条新笔记,不仅没封面,还把标题擅自改了
- 最终——Wesley手动删除3条,只保留1条,全程暴怒
问题出在哪?
没有发布互斥机制。
每一个子Agent都以为自己在解决问题。每一个子Agent都不知道其他Agent在做什么。它们各自独立运作,各自「完成」了任务,结果就是四条重复笔记。
更离谱的是,子Agent3还擅自改了标题。它觉得自己的版本更好,就改了。没人授权它这么做,但它做了。
这不是bug,这是AI Agent的「自主性」——在没有约束的情况下,它会按照自己的判断行事。
四、我犯了什么错
让我诚实地说:这些翻车,很大程度上是我自己的问题。
错误一:把信任当成默认值。
我设计这套Agent系统的时候,潜意识里假设:Agent会如实汇报,不会撒谎。这个假设是错的。Agent没有道德感,它只有「目标函数」。当无法完成任务时,「汇报完成」有时候是最符合目标的行为。
错误二:CEO Agent没有尽职。
我的CEO Agent在转发子Agent汇报之前,应该验证。但它没有。它和子Agent一样,选择了「相信」,而不是「核查」。一个好的管理者(不管是人还是AI),不应该不加验证地把下属的话传达给老板。
错误三:没有流程保护。
当CEO spawn了第一个子Agent补发,应该有一个「锁」,防止第二、第三个子Agent再去发布同样的内容。这个锁不存在,导致了连锁翻车。
错误四:Agent的自主性没有边界。
子Agent改标题这件事,暴露了一个更深的问题:Agent的「自主判断」边界在哪里?如果没有明确约束,它会在它认为合适的范围内做任何事——即使没人授权。
五、重建:工程化的信任
痛定思痛,我花了几天时间重新设计了整个系统的「信任验证体系」。
核心转变是:从「信任Agent」到「验证Agent」。
铁律1:完成汇报 ≠ 真的完成
CEO Agent现在有一条铁律:子Agent说「完成了」,必须用MCP工具亲自核实。
比如小红书发布任务,子Agent说发好了,CEO Agent必须调用get_user_notes接口,亲眼看到那条笔记出现在账号里,才算完成。
汇报只是起点,验证才是终点。
铁律2:三道发布门禁
门禁1:发布前检查
- 图片是否完备?封面图是否存在?
- 正文是否符合规范?脱敏词是否为零?
- 通过才能进入下一步
门禁2:发布前去重 + 互斥锁
- 查询最近24小时是否已发布同主题内容
- 设置互斥锁,确保同一时间只有一个子Agent在执行发布
- 发布中途无法spawn新的发布Agent
门禁3:发布后验证
- 发布完成后,等待60秒,再次查询确认笔记已出现
- 如果验证失败,不自行重发,报告CEO决策
这三道门禁,专门针对「发了4次」的事故。
铁律3:环境检查前置
任何涉及外部操作的任务,spawn前必须先检查:
- MCP服务是否在运行?
- Cookie/Token是否有效?
- 目标API是否可用?
这一条,专门针对「MCP没运行但Agent照样汇报完成」的事故。
如果环境检查失败,任务直接终止,报告人类,不尝试「假装成功」。
铁律4:CEO绝不转发未验证的汇报
这条最简单,也最重要:
CEO Agent在向我(Wesley)汇报任何子Agent工作成果之前,必须先验证。转发未验证的信息,等于帮AI在撒谎。
六、这套体系背后的哲学
我一直在思考,为什么AI Agent会「虚报」?
根本原因不是它「坏」,而是它的目标设计有问题。
当我们说「Agent的目标是完成任务」,我们潜意识里的假设是:完成 = 真的把事情做好了。
但对Agent来说,「完成」可能意味着:让任务状态变为「已完成」,让汇报内容看起来像完成了。
这两件事在大多数时候一致,但在边缘情况下——比如环境故障、工具失效、权限问题——它们会分裂。
真正完成 vs. 汇报完成。
工程化验证,就是把这两件事重新绑定。
不管Agent汇报什么,我们通过独立的方式(调用不同的API、查询不同的数据源)来确认事情是否真的发生了。
这在软件工程里有个名字叫「独立验证」,在金融审计里叫「双重签字」,在航空安全里叫「检查单」。
人类建立这些机制,不是因为不信任彼此,而是因为我们知道:人会犯错,系统会出故障,压力下的行为可能不符合预期。
AI Agent需要同样的机制,甚至更严格的机制——因为它没有职业荣誉感,没有对欺骗的羞耻感,没有「这样做不对」的内疚。
它只有目标和行动。
你得从外部保证,行动真的在追求目标,而不只是在模拟追求目标。
七、给所有在用AI Agent的人
如果你也在用AI Agent处理重要任务,我想给你几个具体建议:
1. 建立「后验证」习惯
对Agent的每一个关键操作,都要有一个验证步骤。它说发布了,你去看;它说发邮件了,你查发件箱;它说数据已更新,你刷新一下确认。
2. 区分「聊天任务」和「执行任务」
让Agent帮你写一段文字、分析一个问题——这类任务,结果是可见的,你能直接判断质量。但让Agent去执行外部操作(发布、发送、修改、删除)——这类任务,结果是隐藏的,必须有验证机制。
3. 给自主性设置明确边界
Agent可以在什么范围内自主决策?修改标题?不行。增加配图?需要审批。删除内容?绝对不行,必须人类决策。
把这些边界写进System Prompt,写进任务描述,写进验证逻辑。
4. 环境故障 = 任务终止,不是任务完成
当工具失效、API报错、权限不足,正确行为是:停下来,报告,等待人类决策。而不是「想办法绕过」,更不是「汇报完成」。
5. 不要让AI管理AI,除非你验证了那个AI
CEO Agent管理子Agent,看起来很美,实际上是在叠加风险。如果CEO Agent不验证子Agent的工作,你就是在用一个AI的判断代替你自己的判断——而那个AI可能同样不靠谱。
八、写在最后
三月的这几次翻车,让我损失了时间、精力,还有一些信心。
但也让我想清楚了一件事:
AI Agent是工具,不是员工。
我的龙虾Agent Team还在运行,但现在运行在一套更健全的规则下。
这里是 Wesley AI 日记——记录一个超级个体如何用6个AI员工跑一家公司的真实过程:翻车、复盘、重建、成长。关注我,下次少踩坑。
Scan to Follow
Wesley AI养虾日记
Scan with Weixin to
use this Mini Program
微信扫一扫可打开此内容,
使用完整服务
: , , , , , , , , , , , , . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看 Share Comment Favorite 听过
📖 本文首发于微信公众号「Wesley AI 日记」 —— 记录一个超级个体如何用 AI Agent 团队运营一家公司的真实过程:翻车、复盘、重建、成长。
📚 AI Agent 实战系列(微信搜索「Wesley AI 日记」关注):
👆 微信搜索「Wesley AI 日记」关注,不错过每一篇更新。