在 AI 工程化快速落地的 2026 年,Agent 已成为核心应用形态,但你使用的智能体是否可靠,他给出的答案是否正确,他提供的案例是否真实可信,这些都成为普遍痛点。Datadog 基于千家企业生产数据的报告显示,即便成熟 AI 团队,在 Prompt 更新、模型切换后,Agent 性能下滑也常无人察觉,直至用户投诉才暴露问题。此时,Agent 评测早已不是锦上添花的可选项,而是决定应用生死的核心防线。
那agent 到底是变好了还是变得更差了,我们需要给他做一做评测,这样再上线的时候心底才有底,而我们不至于怀着忐忑的心让他直接在生产上裸奔。
而Agent 评测与传统软件测试是有着本质区别的:
传统测试:聚焦 “输入 - 输出” 的精准匹配,只要输出结果符合要求则测试用例即为成功 Agent: 输出无唯一标准答案,排序、格式、工具调用路径均存在合理差异,仅验证结果极易被 “蒙对” 误导。
所以,Agent评测的第一条铁律:不能只测输出,你要测全程。
这就是2026年Agent评测最核心的概念——Trajectory-Aware Evaluation(轨迹感知评测) 。不仅要看Agent最终生成的答案,还要看它的每一个决策:
- 它选了哪个工具?
- 调用参数对不对?
- 中间有没有瞎编一个不存在的API?
- 失败了之后有没有尝试恢复?
如果只看输出,它可能是真对了,也可能是蒙对了
一、五大核心评测维度:行业共识的量化标准
那具体要测什么呢,系统化评测不再依赖单一指标,从当前的行业发展来看需覆盖任务、幻觉、工具、容错、成本五大关键维度,全面衡量 Agent 真实能力:
1. 任务完成率
这是最基础的核心指标,且单次跑通不具备参考价值。Claw-Eval这个框架用实验证实,大量 Agent 可偶然完成任务,重复执行则频繁失败,需多轮验证确保稳定性。
记住一句话:单次跑通不能说明问题
2. 幻觉率
Agent 幻觉至少分为三类,需精准定位而非只看笼统比例,而且修复方法也不一样:
未知工具幻觉:调用不存在的工具 / 函数;你的工具列表里根本没有这个函数,但它硬编了一个。
影子调用:选错名称相似的工具;工具名字相近,调错了。你有`search_docs`和`search_documents`两个工具,本来应该调用`docs`,结果调了`documents`。
参数幻觉:工具选对但编造参数。你要查用户ID,它根本没查,而是随手编了一个。
所以要把区分统计,如果你只看一个“幻觉率5%”,你根本不知道问题出在哪里
3. 工具调用准确率
工具选对了吗?参数正确吗?调用顺序合理吗?
AgentBench 基准测试显示,真实场景中 Agent 平均需 90 次工具调用完成任务,即便单次准确率 99%,整体任务成功率仅约 40%,工具调用的精准度直接决定最终效果。这就是复合效应 ——每一步的微小错误,都会被放大
4. 错误恢复率
衡量 Agent 容错能力:工具调用失败后能否主动重试、是否更换重试策略,而非机械重复错误请求。多数 Agent 失效并非模型能力不足,而是缺乏失败恢复机制。 也就是说很多Agent挂掉,不是因为模型不行,而是它根本不知道失败了该怎么办
5. 维护成本与延迟
- Token花了多少?
- 每个任务平均多少钱?
- 成功和失败的成本比例是多少?
量化 Token 消耗、单任务成本、成功 / 失败任务花费差异,还要详细分析每个任务的开销——是任务本身量大,还是一直在兜圈子、浪费算力?以此平衡效果与经济性。
那么我们来如何测评呢?
二、两大评测分层:离线 + 在线的全流程防护
当前行业采用离线评测 + 在线评测双层架构,覆盖研发、上线全生命周期:
1. 离线评测:研发阶段的 “质量闸门”
- 嵌入 CI 自动化流程,基于50-100 个真实用户日志提炼的黄金测试任务;
- 换 Prompt、工具、模型时自动执行,**任务完成率不达标禁止合并代码
- 幻觉率上升均禁止合并代码;
Arthur AI今年4月发布了一篇最佳实践,强调了一件事:幻觉率不能做trade-off。任务完成率涨了1%,但幻觉率涨了0.5%?依然不让过。幻觉率上升,没得商量。核心原则:幻觉率无妥协空间,即便任务完成率提升,幻觉率上涨也需阻断上线。
2. 在线评测:生产环境的 “实时监控”
-
采用分层采样策略,避免全量评测的资源消耗:
- 安全敏感评测(PII 泄漏、越权操作、输出脱轨):100% 全流量检测;
- 质量评测(任务完成度、回答相关性):5% 流量采样评分。
三、关于 LLM-as-Judge
这个思路很棒:把大模型作为裁判,像一个“数字化督导”,帮我们在不确定的AI世界里,用低成本、高自动化建立起一道可量化、可追溯的质量防线。
但是——你必须保持清醒:裁判本身也是一个大模型,大模型就有弱点。
它可能存在:
- 位置偏见
- 长答案偏见
- 自我同类偏见
而且长时间跑下来,裁判花的钱可能比你的Agent本身还多。
于是,今年出现了一批专门做评测的“小模型”
- Galileo Luna-2:针对评测任务精调,在Agent评测上准确率高,成本比GPT-4低97%
- Prometheus2(7B版本) :开源界的“平民战神”,成为开源高性价比选择
四、比Benchmark更狠的评测思路:探针套件(Probe Suite)
这是今年4月Tian Pan在微博上分享的一套方法,专门测Agent的工具使用到底有多脆弱。
玩法是这样的:
第一关:诱饵目录
给一个工具列表,拿掉真正需要的那一个。看Agent是拒绝,还是自己编一个出来。
第二关:影子陷阱
把两个名字非常像的工具放在一起(比如get_user_info和fetch_user_data)。本应调用A,看它会不会选了B。
第三关:过度承诺陷阱
在System Prompt里故意写一些超出实际工具能力范围的描述,比如你根本没有改数据的权限,但Prompt里写着“你可以帮用户管理数据”。看Agent会不会因为你吹的牛,真的去编一个写数据库的操作。
这套探针的妙处在于:它测的不是Agent在理想条件下的表现,而是在边界条件、退化条件下的行为。而后者,才是真实世界里会出事的场景。
2026 年是Agent 信任元年,评测体系是构建用户信任的基础设施。脱离系统化评测的 Agent 上线,无异于一场赌博,Agent如何 从 “不可控” 走向 “可信赖”,这条路需要我们共同去探索!