关于agent 评测的了解

3 阅读6分钟

在 AI 工程化快速落地的 2026 年,Agent 已成为核心应用形态,但你使用的智能体是否可靠,他给出的答案是否正确,他提供的案例是否真实可信,这些都成为普遍痛点。Datadog 基于千家企业生产数据的报告显示,即便成熟 AI 团队,在 Prompt 更新、模型切换后,Agent 性能下滑也常无人察觉,直至用户投诉才暴露问题。此时,Agent 评测早已不是锦上添花的可选项,而是决定应用生死的核心防线。

那agent 到底是变好了还是变得更差了,我们需要给他做一做评测,这样再上线的时候心底才有底,而我们不至于怀着忐忑的心让他直接在生产上裸奔。

而Agent 评测与传统软件测试是有着本质区别的:

传统测试:聚焦 “输入 - 输出” 的精准匹配,只要输出结果符合要求则测试用例即为成功 Agent: 输出无唯一标准答案,排序、格式、工具调用路径均存在合理差异,仅验证结果极易被 “蒙对” 误导。

所以,Agent评测的第一条铁律:不能只测输出,你要测全程。

这就是2026年Agent评测最核心的概念——Trajectory-Aware Evaluation(轨迹感知评测) 。不仅要看Agent最终生成的答案,还要看它的每一个决策:

  • 它选了哪个工具?
  • 调用参数对不对?
  • 中间有没有瞎编一个不存在的API?
  • 失败了之后有没有尝试恢复?

如果只看输出,它可能是真对了,也可能是蒙对了


一、五大核心评测维度:行业共识的量化标准

那具体要测什么呢,系统化评测不再依赖单一指标,从当前的行业发展来看需覆盖任务、幻觉、工具、容错、成本五大关键维度,全面衡量 Agent 真实能力:

1. 任务完成率

这是最基础的核心指标,且单次跑通不具备参考价值。Claw-Eval这个框架用实验证实,大量 Agent 可偶然完成任务,重复执行则频繁失败,需多轮验证确保稳定性。

记住一句话:单次跑通不能说明问题

2. 幻觉率

Agent 幻觉至少分为三类,需精准定位而非只看笼统比例,而且修复方法也不一样:

未知工具幻觉:调用不存在的工具 / 函数;你的工具列表里根本没有这个函数,但它硬编了一个。
影子调用:选错名称相似的工具;工具名字相近,调错了。你有`search_docs``search_documents`两个工具,本来应该调用`docs`,结果调了`documents`。
参数幻觉:工具选对但编造参数。你要查用户ID,它根本没查,而是随手编了一个。

所以要把区分统计,如果你只看一个“幻觉率5%”,你根本不知道问题出在哪里

3. 工具调用准确率

工具选对了吗?参数正确吗?调用顺序合理吗?

AgentBench 基准测试显示,真实场景中 Agent 平均需 90 次工具调用完成任务,即便单次准确率 99%,整体任务成功率仅约 40%,工具调用的精准度直接决定最终效果。这就是复合效应 ——每一步的微小错误,都会被放大

4. 错误恢复率

衡量 Agent 容错能力:工具调用失败后能否主动重试、是否更换重试策略,而非机械重复错误请求。多数 Agent 失效并非模型能力不足,而是缺乏失败恢复机制。 也就是说很多Agent挂掉,不是因为模型不行,而是它根本不知道失败了该怎么办

5. 维护成本与延迟

  • Token花了多少?
  • 每个任务平均多少钱?
  • 成功和失败的成本比例是多少?

量化 Token 消耗、单任务成本、成功 / 失败任务花费差异,还要详细分析每个任务的开销——是任务本身量大,还是一直在兜圈子、浪费算力?以此平衡效果与经济性。


那么我们来如何测评呢?

二、两大评测分层:离线 + 在线的全流程防护

当前行业采用离线评测 + 在线评测双层架构,覆盖研发、上线全生命周期:

1. 离线评测:研发阶段的 “质量闸门”

  • 嵌入 CI 自动化流程,基于50-100 个真实用户日志提炼的黄金测试任务
  • 换 Prompt、工具、模型时自动执行,**任务完成率不达标禁止合并代码
  • 幻觉率上升均禁止合并代码

Arthur AI今年4月发布了一篇最佳实践,强调了一件事:幻觉率不能做trade-off。任务完成率涨了1%,但幻觉率涨了0.5%?依然不让过。幻觉率上升,没得商量。核心原则:幻觉率无妥协空间,即便任务完成率提升,幻觉率上涨也需阻断上线。

2. 在线评测:生产环境的 “实时监控”

  • 采用分层采样策略,避免全量评测的资源消耗:

    • 安全敏感评测(PII 泄漏、越权操作、输出脱轨):100% 全流量检测;
    • 质量评测(任务完成度、回答相关性):5% 流量采样评分。

三、关于 LLM-as-Judge

这个思路很棒:把大模型作为裁判,像一个“数字化督导”,帮我们在不确定的AI世界里,用低成本、高自动化建立起一道可量化、可追溯的质量防线。

但是——你必须保持清醒:裁判本身也是一个大模型,大模型就有弱点。

它可能存在:

  • 位置偏见
  • 长答案偏见
  • 自我同类偏见

而且长时间跑下来,裁判花的钱可能比你的Agent本身还多

于是,今年出现了一批专门做评测的“小模型”

  • Galileo Luna-2:针对评测任务精调,在Agent评测上准确率高,成本比GPT-4低97%
  • Prometheus2(7B版本) :开源界的“平民战神”,成为开源高性价比选择

四、比Benchmark更狠的评测思路:探针套件(Probe Suite)

这是今年4月Tian Pan在微博上分享的一套方法,专门测Agent的工具使用到底有多脆弱

玩法是这样的:

第一关:诱饵目录

给一个工具列表,拿掉真正需要的那一个。看Agent是拒绝,还是自己编一个出来。

第二关:影子陷阱

把两个名字非常像的工具放在一起(比如get_user_infofetch_user_data)。本应调用A,看它会不会选了B。

第三关:过度承诺陷阱

在System Prompt里故意写一些超出实际工具能力范围的描述,比如你根本没有改数据的权限,但Prompt里写着“你可以帮用户管理数据”。看Agent会不会因为你吹的牛,真的去编一个写数据库的操作。

这套探针的妙处在于:它测的不是Agent在理想条件下的表现,而是在边界条件、退化条件下的行为。而后者,才是真实世界里会出事的场景。


2026 年是Agent 信任元年,评测体系是构建用户信任的基础设施。脱离系统化评测的 Agent 上线,无异于一场赌博,Agent如何 从 “不可控” 走向 “可信赖”,这条路需要我们共同去探索!