从 “看起来完美” 到 “其实没解决问题”:我在 AI Agent 落地中踩的最大坑

8 阅读6分钟

最近行业里都在说「智能体来了」,我跟着团队也赶了一波落地热潮 —— 前后做了三个不同业务场景的 AI Agent 项目:风控排查、用户客服、供应链补货。

一开始大家信心满满:模型用的是最新的大模型,工具链也搭得很全,流程能自动跑通,Demo 演示的时候输出的报告、回复的话术都像模像样。但上线跑了半个月,问题就暴露了:

Agent 的日志里全是「执行成功」,每天处理的任务量比人工还多,但业务侧的核心指标没怎么动 —— 风控的风险率没降,客服的用户满意度没升,供应链的库存积压反而还多了几天的量。更离谱的是,需要人工兜底的情况反而变多了:比如 Agent 生成的风控报告列了 10 个风险点,但全是无关紧要的小问题,真正的高风险漏判了;客服 Agent 回复得很规范,但用户的真实诉求没解决,还是要转人工。

我们把这种状态叫「浮光行为」

后来复盘的时候,我们给这种现象起了个名字:智能体的浮光行为 —— 就是局部执行得特别高效,但整体完全没解决问题的状态。

就像我们那个风控 Agent,它能精准执行每一步:查用户的交易数据、拉取历史风险记录、生成结构化报告,动作无可挑剔,但它根本不知道这些动作是为了「降低核心业务风险」这个目标,也不知道「到底识别出哪些风险点才算完成任务」。它只是完成了我们分配的动作片段,而不是把「用户风险排查」这个问题闭环。

说直白点,就像流水线上只拧螺丝的工人,动作标准,但不知道这颗螺丝是装在机器的哪个部位,也不知道拧成什么样才能让机器正常运转。

一开始我以为是能力不够,后来发现是设计错了

最开始我和很多人的想法一样:是不是模型不够强?是不是 Prompt 写得不好?于是我们换了更大参数的模型,优化了好几版 Prompt,结果反而更糟了 —— 大模型生成的报告更像模像样,语言更规范,结构更清晰,我们更容易误以为「问题解决了」,直到业务方反馈才发现,它对目标和边界的无知被更完美的输出掩盖了。

这时候我才意识到:浮光行为根本不是 Agent 能力不足,反而是因为它已经足够强了。模型能力提升后,它更擅长生成「看起来正确」的结果,更容易拟合我们的预期,但它对「为什么要做这件事」「做到什么程度才算好」的无知,反而更难暴露出来。

我们很容易把「高质量输出」等同于「问题已解决」,但实际上,输出质量≠结果价值

为什么真实业务最容易放大这种「浮光」?

后来我们发现,这种现象在真实业务里特别明显,因为真实业务有几个智能体天生不擅长的特征:

第一个是目标模糊。比如业务方说「提升用户体验」,这个目标太抽象了,智能体根本没法理解到底要做什么 —— 是发优惠券?还是主动问候?还是解决问题的速度更快?而我们一开始给它的只是具体动作指令,它只会执行,不会判断这个动作是不是真的能达成目标。

第二个是约束太多。比如客服 Agent 既要解决用户问题,又要符合合规要求,还要控制成本,不能随便发优惠券。这些约束是人类基于业务经验的判断,但智能体如果没有被赋予对这些约束的理解,只会按指令执行,很容易顾此失彼。

第三个是异常是常态。真实业务里永远有例外情况:比如用户的问题不在知识库范围内,风控的用户数据有缺失,供应链的物流突然延迟。这些情况智能体如果没有被设计「判断异常并调整」的机制,只会继续执行原来的动作,结果就是输出无效内容。

我们总结了 4 个问题,判断 Agent 是不是在「做表面功夫」

后来我们上线 Agent 前,都会先问自己这 4 个问题:

  1. 它知道自己要达成的真实业务目标是什么吗?
  2. 它能判断自己的输出是不是真的达标了吗?
  3. 它能识别出异常和自己解决不了的情况吗?
  4. 遇到这些情况,它有停止、调整或者转人工的机制吗?

如果有一个问题的答案是否定的,那这个 Agent 本质上还是一个高级执行器,而不是能解决问题的智能体。

比如我们后来优化客服 Agent 的时候,给它加了一个「结果校验」的环节:它回复用户后,要主动判断用户的问题是不是真的解决了 —— 比如看用户有没有追问,或者用多轮对话确认用户的满意度,如果发现用户还没解决,就自动转人工。上线后,用户满意度提升了 15%,人工兜底的情况也减少了 20%。

从「执行系统」到「责任系统」,才是智能体的核心跃迁

现在我们做智能体设计,已经不再是从「动作」出发,而是从「结果」出发:

  • 先锚定真实的业务目标,而不是给一堆动作指令;
  • 让智能体感知完整的业务流程,而不是只执行单步动作;
  • 给它明确的「完成标准」,让它知道做到什么程度才算解决问题;
  • 最重要的是,让它对结果负责 —— 如果没达成目标,要能调整策略,或者主动停下来转人工。

比如我们那个供应链 Agent,原来的设计是「收到补货指令→执行补货」,现在改成「锚定『降低库存积压』的目标→实时监控库存和销量→判断要不要补货、补多少→执行补货后再校验库存水平」。上线后,库存积压天数减少了 8 天,真正带来了业务价值。

最后想说的

现在很多人都在吹智能体有多强,模型能力有多牛,但我觉得,智能体真正的分水岭根本不是能力,而是能不能对结果负责。

真正的风险不是智能体做不了事,而是它看起来已经把事做完了,但实际上根本没解决问题。浮光行为可能是智能体时代的一个过渡现象,但能不能识别并跨越它,决定了智能体最终是成为真正的生产力,还是只是增加了一层新的复杂性。

所以,当「智能体来了」的时候,我觉得比起迷恋它的能力,更重要的是对业务结果的敬畏 —— 毕竟,能解决问题的智能体,才是真的有用的智能体。