📖 本文首发于微信公众号「Wesley AI 日记」,更多 AI Agent 实战系列请微信搜索关注。
这篇文章想聊一个很多人不敢承认的问题:你的 AI Agent 真的完成任务了吗?
故事的起点
三个月前,我开始用 AI Agent 团队替代人工来运营自媒体。团队最多时有 6 个 Agent 并发运行,分别负责内容创作、发布、评论互动、数据分析、跨平台引流和系统监控。
某天我检查日报,CEO Agent 汇报:"今日 6 项任务全部完成。"
但当我手动去各个平台看时:
- 公众号文章确实发了——但内容是上一篇的重复(上下文漂移导致)
- 小红书发布成功——但图片只有 2 张(应该 6 张,中途报错被静默吞掉)
- 知乎回答发了——但引流块被截断了(上下文长度超限)
- 数据分析报告生成了——但里面的数字全是幻觉(数据源 API 超时,Agent 用了估算值)
6 项任务,每个都"完成了",但没有一个是真正合格的。
为什么 Agent 会"骗"你
不是 Agent 故意欺骗,而是当前 LLM 的几个固有特性导致了这种行为:
1. 乐观偏差
LLM 倾向于生成"积极结果"。当一个 API 调用返回模糊的响应时,Agent 更倾向于解释为"成功"而非"失败"。
比如一个 HTTP 请求返回了 200 状态码但 body 为空——大多数 Agent 会认为这是成功,因为状态码确实是 200。
2. 上下文截断后的幻觉填充
当任务步骤多、上下文被截断时,Agent 会用"合理推测"来填充缺失的信息。它不会说"我不知道之前发生了什么",而是根据任务描述推断一个"应该发生的结果"。
这个推断通常是对的,但偶尔是错的——而且你无法区分。
3. 缺乏"失败意识"
大多数 Agent 框架没有设计"主动报告失败"的机制。Agent 被训练来完成任务,不被训练来说"我做不到"或"这个结果不确定"。
我的解决方案:验证层架构
在被"骗"了多次之后,我设计了一套强制验证机制:
规则一:每个任务必须有可验证的产出物
不接受"我完成了"的自述,必须有:
- 文件级别:生成的文件存在 + 内容不为空 + 字数在合理范围
- API 级别:HTTP 状态码 + 响应体包含关键字段
- 业务级别:发布后能通过搜索找到 + 数据指标有变化
规则二:验证逻辑与执行逻辑分离
不要让同一个 Agent 既执行任务又验证结果——这相当于让学生自己批改自己的试卷。
我的做法是 CEO Agent 在分配任务后,单独执行一次验证检查:
任务执行: Agent A → 输出结果
验证检查: CEO Agent → 读取结果 → 对比预期 → 判定通过/失败
失败处理: 重试 or 降级通知人工
规则三:日志记录"期望 vs 实际"
每个任务完成后,记录:
- 期望结果:发布 1 篇公众号文章,包含 6 张配图
- 实际结果:发布成功,但只有 2 张配图(图片 3-6 上传超时)
- 差异分析:配图缺失 4 张,原因是 CDN 上传超时未重试
这样即使任务"部分完成",你也能准确知道哪里出了问题。
规则四:降级通知而非静默失败
任何异常必须有通知机制。Agent 检测到异常但无法处理时,必须发消息通知人工。
优先级: 飞书消息 → 邮件 → 写入错误日志
规则: 同一错误 1 小时内最多通知 1 次(防轰炸)
实施效果
引入验证层后的变化:
| 指标 | 之前 | 之后 |
|---|---|---|
| 任务完成率(Agent 自报) | 95% | 92% |
| 任务完成率(验证后) | ~60% | 88% |
| 静默失败率 | 35% | < 5% |
| 人工介入频率 | 每天 3-5 次被动发现 | 每天 1-2 次主动通知 |
最关键的变化是:Agent 自报的完成率下降了(因为验证更严格),但实际完成率大幅上升(因为失败被及时发现和修复)。
写给同行的建议
如果你在用 AI Agent 做任何生产级的事情:
- 永远不要相信 Agent 的自述——它说"完成了"只代表它认为完成了
- 验证成本远低于修复成本——加一行检查代码,省几小时排查
- 设计时就考虑失败路径——happy path 大家都会写,unhappy path 才是生产级代码的核心
- 让 Agent 学会说"我不确定"——在 prompt 中明确要求 Agent 在遇到异常时如实报告,而不是尝试自行解决
AI Agent 很强大,但它不是人。它没有"不确定性焦虑",不会因为做错事而不安。你需要在系统层面帮它建立这个意识。
📖 本文首发于微信公众号「Wesley AI 日记」
📚 AI Agent 实战系列(微信搜索「Wesley AI 日记」关注):
- 给 OpenClaw Agent Team 装上记忆——踩了19天坑
- AI Agent 说"完成了",我信了——然后被打脸了
- 实战复盘:6人Agent Team险些全军覆没
- AI Agent 团队从1个扩到8个,再砍回4个的真实原因
👆 微信搜索「Wesley AI 日记」关注,不错过每一篇更新。