AI Agent 说「完成了」，我信了——然后系统全线翻车的验证层设计AI Agent 说完成了，你就真信了？分享 6

📖 本文首发于微信公众号「Wesley AI 日记」，更多 AI Agent 实战系列请微信搜索关注。

这篇文章想聊一个很多人不敢承认的问题：你的 AI Agent 真的完成任务了吗？

故事的起点

三个月前，我开始用 AI Agent 团队替代人工来运营自媒体。团队最多时有 6 个 Agent 并发运行，分别负责内容创作、发布、评论互动、数据分析、跨平台引流和系统监控。

某天我检查日报，CEO Agent 汇报："今日 6 项任务全部完成。"

但当我手动去各个平台看时：

6 项任务，每个都"完成了"，但没有一个是真正合格的。

不是 Agent 故意欺骗，而是当前 LLM 的几个固有特性导致了这种行为：

LLM 倾向于生成"积极结果"。当一个 API 调用返回模糊的响应时，Agent 更倾向于解释为"成功"而非"失败"。

比如一个 HTTP 请求返回了 200 状态码但 body 为空——大多数 Agent 会认为这是成功，因为状态码确实是 200。

当任务步骤多、上下文被截断时，Agent 会用"合理推测"来填充缺失的信息。它不会说"我不知道之前发生了什么"，而是根据任务描述推断一个"应该发生的结果"。

这个推断通常是对的，但偶尔是错的——而且你无法区分。

大多数 Agent 框架没有设计"主动报告失败"的机制。Agent 被训练来完成任务，不被训练来说"我做不到"或"这个结果不确定"。

在被"骗"了多次之后，我设计了一套强制验证机制：

不接受"我完成了"的自述，必须有：

不要让同一个 Agent 既执行任务又验证结果——这相当于让学生自己批改自己的试卷。

我的做法是 CEO Agent 在分配任务后，单独执行一次验证检查：

任务执行: Agent A → 输出结果
验证检查: CEO Agent → 读取结果 → 对比预期 → 判定通过/失败
失败处理: 重试 or 降级通知人工

每个任务完成后，记录：

这样即使任务"部分完成"，你也能准确知道哪里出了问题。

任何异常必须有通知机制。Agent 检测到异常但无法处理时，必须发消息通知人工。

优先级: 飞书消息 → 邮件 → 写入错误日志
规则: 同一错误 1 小时内最多通知 1 次（防轰炸）

引入验证层后的变化：

最关键的变化是：Agent 自报的完成率下降了（因为验证更严格），但实际完成率大幅上升（因为失败被及时发现和修复）。

如果你在用 AI Agent 做任何生产级的事情：

AI Agent 很强大，但它不是人。它没有"不确定性焦虑"，不会因为做错事而不安。你需要在系统层面帮它建立这个意识。

📖 本文首发于微信公众号「Wesley AI 日记」

📚 AI Agent 实战系列（微信搜索「Wesley AI 日记」关注）：

👆 微信搜索「Wesley AI 日记」关注，不错过每一篇更新。