Agent 评测最容易做错的一步,不是算分,而是没先把“对错”定义清楚

0 阅读6分钟

为什么这篇在现在特别有用

Agent 一旦开始“真干活”,评测就不能只盯一句回答。它会调工具、改状态、走分支;你要同时看两件事:最后做没做成,以及过程能不能接受。这篇真正有用的地方,不是再发明新词,而是把评测拆成工程里真能用的一组对象:task、trial、grader、transcript、outcome,再用 pass@k / pass^k 区分“偶尔能成”和“稳定能成”。[1]

先看主线

  • 主线:为什么难评 → 怎么判分 → 指标怎么读 → 团队如何落地。
  • 跳读位:文内 ### 深度解析 与「官方叙事与可核对事实」。

一、背景:Agent 评测为什么比聊天评测难一档

Agent 会在执行中改计划,这既是价值,也是难点:同一个目标,可能走出多条合法路径。你不能只看“它说了什么”,还得看“环境最后变成什么样”。[1]

文中术语(节选):[1]

概念含义
Task单次测试:输入 + 成功标准
Trial同一 task 的一次运行;常多次 trial 估稳定性
Grader判分逻辑;可有多个 assertion
Transcript / trace全量轨迹(含工具、推理、中间结果);API 上常对应完整 messages
Outcome环境终态(如 DB 里是否真有预订),可与 transcript 表面话术不一致
Eval harness跑 eval 的基础设施:环境、并发、记录、聚合
Agent harness让模型成 Agent 的脚手架;评的是 harness + 模型 合体
Eval suite面向同一类能力的一组 tasks

前沿模型还可能走出评测未覆盖的「更优解」:原文举 𝜏2-bench 中机票策略 loophole 一例,并指向 Claude Opus 4.5 发布说明——模型在既定评测脚本下可能「失败」却给出对用户更优的做法。提醒:静态步骤匹配易误伤合理创新。[1]


二、演进:从“一个分数”到“多裁判协同”

image.png

代码/确定性:字符串匹配、单测、静态分析、outcome 检查、工具调用模式、轨迹统计等——快、客观、易调试,但对合法变体脆弱。[1]

模型-based:rubric、自然语言断言、对比、多裁判共识——灵活,需与人标定。[1]

人类:SME、抽检、A/B——金标准,贵且慢。[1]

加权全过才过或混合。

深度解析:LLM Grader 与「与人标定」债务

事实:模型-based grader 灵活。[1]

原文观点:需与人对齐。[1]

本文解读:每次换基础模型或工具栈,rubric 漂移都可能发生。最好长期保留 金标子集双裁判 机制,否则自动化 eval 很容易“内部一致、对人不准”。


三、机制:能力集与回归集为什么要分开管

Capability / quality:故意选难例,低通过率当「爬坡」指标。
Regression:应接近全过,防迭代把旧能力搞丢。
爬上去的能力集可「毕业」为持续回归集。[1]


四、按场景落地:不同 Agent 的评测抓手

Coding:稳定环境 + 单测(如 SWE-bench VerifiedTerminal-Bench 叙事);可再加轨迹里的工具使用/代码质量 rubric。[1]

对话/客服终态(工单、退款)+ 交互质量 rubric;常需模拟用户的第二 LLM;𝜏-Bench𝜏2-Bench 等。[1]

Research:客观题可精确匹配;开放综述要 groundedness / coverage / 来源权威;BrowseComp「难找易验」;LLM 裁判需与人对齐。[1]

Computer use:沙箱真实 UI;WebArena、OSWorld 等;DOM vs 截图在 token/延迟上权衡。[1]


五、指标:pass@k 和 pass^k 到底在回答什么问题

image.png

pass@k 回答的是:多试几次,能不能至少成一次。
pass^k 回答的是:连续跑 k 次,能不能次次都稳。
前者偏“探索上限”,后者偏“生产可靠性”。[1]

k=1 时二者数值一致;k 大时叙事可相反。[1]


六、工程化:从第一版评测到持续维护

image.png

  1. 尽早开始20–50 条真实失败转化即可;别等「几百条完美集」。
  2. 从手工已在测的开始;生产则挖 工单/支持队列
  3. 任务无歧义 + 参考解 证明可解、grader 没写反;0% pass@大量 trial 更常是题坏而非模型废。[1]
  4. 正负例平衡(例:该搜/不该搜);避免单侧优化。[1]
  5. Harness 与产线一致、每 trial 干净隔离,防共享状态造假或脏失败。[1]
  6. Grader:能确定性则确定性;少绑「固定工具顺序」;部分得分反映渐进成功。[1]
  7. 读 transcript:区分真错 vs 误判;公平感是 eval 健康度。[1]
  8. 警惕饱和:全过则只剩回归信号;难例要换新 hill。[1]
  9. 长期维护:基础设施团队 + 业务贡献题;eval-driven development。[1]

附录列了 Harbor、Braintrust、LangSmith、Langfuse、Arize Phoenix/AX 等工具。实操里更该优先做的,通常不是“再换个平台”,而是先把题目定义和 grader 质量打磨稳定。[1]

官方叙事与可核对事实:工具名录与「题好」

事实:文末列举业界框架。[1]

原文观点:基础设施重要,题与 grader 更重要。[1]

本文解读(推断):采购 eval 平台前应先问:能否版本化任务集、能否与人审闭环——否则买的是仪表盘,不是质量。


七、边界:eval 很重要,但它不是唯一真相

自动化 eval 只能回答“在你定义的问题上,它今天表现如何”。要避免盲区,仍要和线上监控、A/B、用户反馈、人工读轨迹配合使用(原文用“瑞士奶酪”比喻)。[1]


结论与讨论

技术坐标

这篇最值钱的地方,是把“评测”从抽象 KPI 拉回工程对象:你知道该建什么集合、怎么判分、每个指标到底在回答什么问题。对团队来说,这比任何一次榜单结果都更可复用。

批判性问题

  1. 你的 grader 是否对 合法创新路径 误杀(静态步骤匹配)?
  2. Harness 与产线是否真一致——还是 eval 里用了「作弊」工具白名单?
  3. 全过之后的 饱和 是否让你停止加难例?

独立判断(事实 / 原文观点 / 本文解读)

类型内容
事实原文 URL;术语表与路线图为文内框架。[1]
原文观点多类 grader;能力 vs 回归;瑞士奶酪式互补监控。[1]
本文解读长期收益最大的是 题集治理 + transcript 复盘,而不只是加一个新看板。若业务 KPI 与题集脱节,团队也可能过拟合通过率——文中「饱和」正是在提醒:分数全绿不等于用户问题消失。[1]

参考文献与延伸阅读

附录所列 Harbor、Langfuse 等工具以原文页面及各自官网为准。

若刚接触 Agent:先读本文 第一节术语表,再读 [2] 建立 harness 概念;动手搭 eval 前把 [4] 打开看一眼「行业默认长什么样」。