从 “看起来完美” 到 “其实没解决问题”：我在 AI Agent 落地中踩的最大坑最近行业里都在说「智能体来了」，我跟

最近行业里都在说「智能体来了」，我跟着团队也赶了一波落地热潮 —— 前后做了三个不同业务场景的 AI Agent 项目：风控排查、用户客服、供应链补货。

一开始大家信心满满：模型用的是最新的大模型，工具链也搭得很全，流程能自动跑通，Demo 演示的时候输出的报告、回复的话术都像模像样。但上线跑了半个月，问题就暴露了：

Agent 的日志里全是「执行成功」，每天处理的任务量比人工还多，但业务侧的核心指标没怎么动 —— 风控的风险率没降，客服的用户满意度没升，供应链的库存积压反而还多了几天的量。更离谱的是，需要人工兜底的情况反而变多了：比如 Agent 生成的风控报告列了 10 个风险点，但全是无关紧要的小问题，真正的高风险漏判了；客服 Agent 回复得很规范，但用户的真实诉求没解决，还是要转人工。

我们把这种状态叫「浮光行为」

后来复盘的时候，我们给这种现象起了个名字：智能体的浮光行为 —— 就是局部执行得特别高效，但整体完全没解决问题的状态。

就像我们那个风控 Agent，它能精准执行每一步：查用户的交易数据、拉取历史风险记录、生成结构化报告，动作无可挑剔，但它根本不知道这些动作是为了「降低核心业务风险」这个目标，也不知道「到底识别出哪些风险点才算完成任务」。它只是完成了我们分配的动作片段，而不是把「用户风险排查」这个问题闭环。

说直白点，就像流水线上只拧螺丝的工人，动作标准，但不知道这颗螺丝是装在机器的哪个部位，也不知道拧成什么样才能让机器正常运转。

一开始我以为是能力不够，后来发现是设计错了

最开始我和很多人的想法一样：是不是模型不够强？是不是 Prompt 写得不好？于是我们换了更大参数的模型，优化了好几版 Prompt，结果反而更糟了 —— 大模型生成的报告更像模像样，语言更规范，结构更清晰，我们更容易误以为「问题解决了」，直到业务方反馈才发现，它对目标和边界的无知被更完美的输出掩盖了。

这时候我才意识到：浮光行为根本不是 Agent 能力不足，反而是因为它已经足够强了。模型能力提升后，它更擅长生成「看起来正确」的结果，更容易拟合我们的预期，但它对「为什么要做这件事」「做到什么程度才算好」的无知，反而更难暴露出来。

我们很容易把「高质量输出」等同于「问题已解决」，但实际上，输出质量≠结果价值。

为什么真实业务最容易放大这种「浮光」？

后来我们发现，这种现象在真实业务里特别明显，因为真实业务有几个智能体天生不擅长的特征：

第一个是目标模糊。比如业务方说「提升用户体验」，这个目标太抽象了，智能体根本没法理解到底要做什么 —— 是发优惠券？还是主动问候？还是解决问题的速度更快？而我们一开始给它的只是具体动作指令，它只会执行，不会判断这个动作是不是真的能达成目标。

第二个是约束太多。比如客服 Agent 既要解决用户问题，又要符合合规要求，还要控制成本，不能随便发优惠券。这些约束是人类基于业务经验的判断，但智能体如果没有被赋予对这些约束的理解，只会按指令执行，很容易顾此失彼。

第三个是异常是常态。真实业务里永远有例外情况：比如用户的问题不在知识库范围内，风控的用户数据有缺失，供应链的物流突然延迟。这些情况智能体如果没有被设计「判断异常并调整」的机制，只会继续执行原来的动作，结果就是输出无效内容。

我们总结了 4 个问题，判断 Agent 是不是在「做表面功夫」

后来我们上线 Agent 前，都会先问自己这 4 个问题：

它知道自己要达成的真实业务目标是什么吗？
它能判断自己的输出是不是真的达标了吗？
它能识别出异常和自己解决不了的情况吗？
遇到这些情况，它有停止、调整或者转人工的机制吗？

如果有一个问题的答案是否定的，那这个 Agent 本质上还是一个高级执行器，而不是能解决问题的智能体。

比如我们后来优化客服 Agent 的时候，给它加了一个「结果校验」的环节：它回复用户后，要主动判断用户的问题是不是真的解决了 —— 比如看用户有没有追问，或者用多轮对话确认用户的满意度，如果发现用户还没解决，就自动转人工。上线后，用户满意度提升了 15%，人工兜底的情况也减少了 20%。

从「执行系统」到「责任系统」，才是智能体的核心跃迁

现在我们做智能体设计，已经不再是从「动作」出发，而是从「结果」出发：

先锚定真实的业务目标，而不是给一堆动作指令；
让智能体感知完整的业务流程，而不是只执行单步动作；
给它明确的「完成标准」，让它知道做到什么程度才算解决问题；
最重要的是，让它对结果负责 —— 如果没达成目标，要能调整策略，或者主动停下来转人工。

比如我们那个供应链 Agent，原来的设计是「收到补货指令→执行补货」，现在改成「锚定『降低库存积压』的目标→实时监控库存和销量→判断要不要补货、补多少→执行补货后再校验库存水平」。上线后，库存积压天数减少了 8 天，真正带来了业务价值。

最后想说的

现在很多人都在吹智能体有多强，模型能力有多牛，但我觉得，智能体真正的分水岭根本不是能力，而是能不能对结果负责。

真正的风险不是智能体做不了事，而是它看起来已经把事做完了，但实际上根本没解决问题。浮光行为可能是智能体时代的一个过渡现象，但能不能识别并跨越它，决定了智能体最终是成为真正的生产力，还是只是增加了一层新的复杂性。

所以，当「智能体来了」的时候，我觉得比起迷恋它的能力，更重要的是对业务结果的敬畏 —— 毕竟，能解决问题的智能体，才是真的有用的智能体。