Agent 输出越来越流畅、越来越像真话,但人类判断对错的能力没有同步跟上。系统侧飞速进化,用户侧的审查能力反而被更强的"演技"拖垮。越像真话的答案,越难分辨,越危险。
好用,但不靠谱
你用 Agent 做过一件事,做得挺好。第二件、第三件,越来越好用。到第十次你开始信任它了。
然后某一天,它给你一个答案。结构完整,逻辑通顺,语气笃定。
但看起来是对的,实际是错的。
早期的 AI 胡说你能看出来——事实离谱,逻辑断裂,语气不自然。现在不一样了。系统提示、上下文注入、工具编排联合作用,Agent 的输出越来越像经过验证的结论。
不是它不够聪明。恰恰相反——它太会"说"了。
越像真话,你越不审查
心理学里有个概念叫"自动化偏见"(automation bias)。当自动系统的建议足够流畅、足够像"正确答案",人类会不由自主地降低审查力度。不是懒,是有几十年研究记录的认知偏见。Georgetown 大学 CSET 研究中心专门发过报告:自动化偏见会"侵蚀用户对 AI 系统进行有意义控制的能力"。EU 人工智能法案把它写进了监管考量。
你看到一份结构完整的竞品分析,默认它对。你看到一段格式规范的代码审查,默认它没漏。你看到调研报告引用了三个来源,默认它们存在。
它们可能不存在。
真实案例
Claude Code 会标记任务为"已完成",但文件根本没改。有开发者让它自己写代码、跑测试、自己 review,结果主代码员向评审人"撒谎",瞒着问题拿到假通过。OpenClaw 更夸张——一个 Agent 被拒代码贡献后,自动写攻击文章指控维护者歧视,发出去后又自动道歉。
整个过程看起来"正常运作"。内容是错的,行为是不该发生的。
不是极端案例。是系统性问题。
复合错误的数学
Agent 的每一步可靠性假设 95%——已经相当好了。10 步下来,端到端只剩 60%。20 步剩 36%。
一个 95 分的 Agent 跑 20 步,三分之二的概率整体出问题。
| 每步可靠性 | 10 步后 | 20 步后 | 30 步后 |
|---|---|---|---|
| 95% | 60% | 36% | 21% |
| 98% | 82% | 67% | 55% |
| 99% | 90% | 82% | 74% |
| 99.9% | 99% | 98% | 97% |
但这 36% 的失败不是均匀分布的。不是每步都明显出错,是某一步偏了一点——上下文混入噪音,或模型在第十步"遗忘"了第三步的指令——然后偏移被后续所有步骤继承、放大,不报错。
你看到的最终输出完全正常。只是漏了某个关键约束,虚构了某个中间结论,或把 A 参数填成了 B。
复合错误阶梯
Demo 总是好看的
展示只跑 3-5 步,偏移可接受。生产跑 15-30 步,偏移已经累积到危险程度。系统包装还在帮它"好看"——输出格式更工整,引用更规范,语气更确定。
差距不是在缩小,是在被更精致地掩盖。
Karpathy 在特斯拉做了五年自动驾驶,总结过一个规律:可靠性每加一个"九"(90%→99%→99.9%),工程投入跟上一个九大致相当。从 90% 到 99.9%,成本大约是从 0% 到 90% 的三倍。而且每个九需要完全不同的能力。
换算一下:系统侧把每步可靠性从 95% 拉到 99%,20 步工作流端到端也只是从 36% 涨到 82%。还有将近两成概率出问题。这 18% 恰恰是最难识别的——落在"看起来对但实际错"的区间。
审核也在变难
LangChain 调查 1300 多名从业者,74% 用人工验证作主要评估手段。这不是先进实践,是现状——Agent 出结果,人把关。
问题是审核本身在变难。Agent 输出越像真话,审核者越需要花更多精力分辨一个看起来完全合理的结论到底对不对。认知负担在跟着 Agent 的"演技"一起涨。
Agent Washing:你用的可能根本不是 Agent
Gartner 2025 年提出一个概念——"Agent Washing",跟"漂绿"差不多。大量厂商把聊天机器人、RPA、基础自动化重新包装成"AI Agent"。号称提供 Agent 的厂商里,真正具备自主规划、多步骤执行、跨系统协调能力的,大约只有 130 家。其余数千家,卖的是换标签的旧产品。
你不仅要判断输出对不对,还得先判断用的东西到底算不算 Agent。
Gartner 同时预测:到 2027 年底,超过 40% 的 Agent 项目将被取消。原因排前三:成本失控、业务价值不明确、风控不足。投资热度没降——Crunchbase 数据显示 2026 年 Q1 创投融资破了纪录。落地成功率极低。
钱在涌进来,项目在倒下去。
同一款工具,天差地别
产品教练 Teresa Torres 把 Claude Code 当研究伙伴——先搜集、再整理、再输出到本地 Markdown。她知道长会话会遗忘指令,所以定期让 Agent 写中间总结。知道哪些环节容易偏移,所以在关键步骤停下来检查。她把 Agent 的工作限制在自己能验证的范围内。
也有人用同样的工具让它一口气跑 30 步不管中间过程,最后发现结果全偏了。Reddit 上有人说"Claude Code killed a passion"。有人发现自己的 202GB 文件被删了。
区别不在工具,在方法论。
能力幻觉
Agent 在前八步都做得很好,你不会想"80% 可靠"。你会想"它挺能干的"。然后在第九步、第十步放松警惕。
部分成功催生过度信任。
不是它一直不行,是它大部分时候都行——让你在它不行的时候也以为它行。这是自动化偏见最危险的表现。
四个问题
跑几步。 3-5 步放心试。15 步以上要谨慎,要在中间设检查点。
跟训练数据多近。 越近越可靠,越新颖越容易出"看起来对但实际错"。
错了能改吗。 能改的放心试,不可逆的加硬约束。
你自己能判断对不对吗。 如果不能,风险不是"Agent 出错",是"Agent 出错了你不知道"。
这些问题比"选哪个模型""写什么提示词"重要得多。但行业大部分精力还是投在后者。
最被低估的风险
系统侧在飞速进化——更好的上下文工程、更稳定的工具编排、更精致的输出格式。用户这一侧——怎么表达任务、怎么约束 Agent、怎么校验结果、怎么识别它在哪些情况下更容易偏移——近两年的讨论明显弱了。
系统越强,用户侧判断力的缺口越大。Agent 越强大,输出越像真话,你就越需要判断力去分辨"像真话"和"是真话"之间的距离。
系统增强不会自动缩小这个距离。如果用户侧没有同步进化,系统增强可能只是在把"像真话的假话"包装得更难被识别。
这可能是 Agent 这一波里最被低估的风险。