Agent评估,你真的做对了吗
在过去,评估大模型相对简单:我们只需要衡量回答对不对。
无论是文本生成、问答,还是代码补全,评估对象通常都是模型的一次输出。
但 Agent 不一样。
Agent 不只是生成答案,而是在完成一个任务:它需要理解目标、规划步骤、调用工具、观察反馈,并在多轮交互中不断调整执行路径。
这也让评估从一件“简单判断对错”的事情,变成了一个真实而复杂的工程问题。
在实际开发中,团队往往会遇到几个非常具体的困难:
● 评估成本高、速度慢
很多评测仍然依赖人工标注,不仅成本高,而且周期长,严重拖慢 Agent 的迭代节奏。
● 结果不稳定,难以复现
同样的输入,在不同时间可能得到不同输出,评估像“抽盲盒”,很难做回归测试,也难以定位问题。
● 过程不可见,难以诊断
Agent 是真的一步步执行正确,还是“最后一步碰巧答对”,往往无法判断,问题也难以被准确归因。
这些问题,使得评估不再只是一个辅助工具,而逐渐成为 Agent 工程化落地过程中的关键瓶颈。很多团队最终只能依赖经验、日志排查,甚至是“感觉”,来判断一个 Agent 到底表现好不好。
也正是为了解决这些问题,我们在 AgentArts 中构建了一套面向 Agent 的评估体系。它不只关注最终答案是否正确,也关注任务执行过程中每一步是否合理、可控、可诊断。
我们希望通过这套体系,把评估从上线前的一次性检查,变成贯穿开发、调试、上线与运行全过程的基础能力。
从这张图可以看到,Agent 评估的对象已经不再只是一次输出,而是从用户输入、模型理解、工具调用、多轮交互到最终结果的完整执行过程。
Agent, 我们到底在评什么
每一个 Agent 开发者在构建 Agent 的过程中,都会面对一个核心问题:如何衡量自己的 Agent 效果。
比如,做问答助手时,开发者关心的是 Agent 有没有真正解决用户问题;做新闻撰稿 Agent 时,更关心检索来源是否真实、是否具备时效性;做企业流程 Agent 时,还要关注工具调用是否正确、执行路径是否可控。
但问题在于,这些关注点往往是分散的。大多数开发者很难同时覆盖所有维度,也因此常常会怀疑:这套评估到底是否全面、是否准确。
在 AgentArts 中,我们将 Agent 评估收敛为三个核心维度:
- 结果层:输出是否正确、有用、合规、安全
- 过程层:执行路径是否合理,包括工具选择、参数填充、轨迹质量
- 交互层:多轮过程中是否稳定,包括上下文保持、目标一致性
这三个层次,本质上对应了工程中最关键的三个问题:
结果对不对 → 过程是否合理 → 多轮是否稳定
围绕这三层结构,AgentArts 内置了 40+ 经过业务验证的评估器,覆盖输出质量、执行路径与多轮交互等关键环节,并统一组织为一套完整的评估体系。
下图展示的就是 AgentArts 的评估器体系:它不是单一指标,而是围绕结果、过程、交互三个层次,提供多维度、可组合的评估能力。
在实际使用中,用户可以基于数据集,或直接调用线上 Agent 发起评测任务,系统会自动完成执行与打分。
下面是一个典型的评估任务界面。用户可以选择评估对象、配置评估数据和评估指标,将原本依赖人工判断的过程,转化为可复用的自动化评测任务。
评测任务执行后,系统会输出任务成功率、指标得分、样本明细等信息,帮助开发者快速判断当前 Agent 版本的整体表现。
在实际运行中,评估效率直接决定了它是否能够被持续使用。
从上图可以看到,在一个包含 30 条数据的评测任务中,整个执行过程仅耗时 37 秒,并完成了 100% 的任务成功率统计与多维指标分析。
相比传统依赖人工评估的方式,这种自动化评测大幅降低了时间成本,使评估可以真正融入日常开发与迭代流程,而不是变成上线前偶尔执行一次的“重流程”。
基于这一点,AgentArts 在工程实现上重点优化了评估的规模化与执行效率,使评估可以支撑真实业务中的持续迭代。目前系统具备以下能力:
- 覆盖 Agent 全链路评估
- 千条级数据评测可在小时级完成
- 支持超长链路执行轨迹评估(上下文长度最高可达 2M)
- 支持多版本策略的统一评估、对比与回退
- 多指标多维度同时评估
- 支持大规模数据并行执行评测任务
- 支持智能评测集生成(仅需少于3 条样本即可构建高质量、多样化评测数据)
- 支持 Code-based 规则评估与 LLM Judge,半数以上评估器准确率超过 90%,稳定对齐人类偏好
评估,如何真正发挥作用
如果说前面的能力解决的是“如何评估”,那么接下来的问题是:
评估结果,如何真正参与系统优化?
在 AgentArts 中,评估是沿着 Agent 的真实运行路径发生的。
下图展示了 AgentArts 评估服务的整体链路:从用户输入开始,Agent 完成任务理解、工具调用和多轮交互;执行过程中产生的数据会通过 SDK 被采集,并在平台中结构化存储为 Trace;随后,这些 Trace 会进入评估引擎,按照结果层、过程层和交互层进行分析,最终输出评估结果和报告。
如果只停留在这里,评估依然只是对“已经发生的执行”的一次分析。更重要的是:
这些评估结果,能够反过来影响系统本身。
因此,AgentArts 不是只做一次性打分,而是把评估接入到数据构建、在线运行、人工修正和版本迭代的完整流程中。
① 从“没有数据”开始
在实际开发中,第一个问题往往不是模型,而是数据。
很多团队在构建 Agent 时,很难找到覆盖真实场景的评测集:要么数据过少,要么表达单一,更缺乏边界条件和长尾情况。
在 AgentArts 中,用户可以直接通过自然语言描述任务场景,系统自动生成评测数据。
下图展示的是智能评测集生成能力:开发者只需要提供少量样例或任务描述,系统就可以围绕场景语义进行扩展,生成更丰富的评测数据。
系统会基于语义扩展生成多样化数据,包括:
-
不同表达方式与输入风格
-
边界条件与长尾场景
-
正负样例与对抗数据
从少量描述出发,即可构建一批接近真实分布的评测集。评估不再受限于“有没有数据”,而是可以主动生成覆盖范围。
② 从“离线验证”走向“在线评估”
有了评测集之后,下一步是评估执行。
但在真实系统中,仅靠离线评测是不够的。很多问题只会在真实用户交互中暴露,而这些问题如果不能被及时捕捉,就很难定位。
在 AgentArts 中,评估能力可以直接接入运行链路,实现在线评估。
下图展示的是在线评估能力:系统可以基于真实用户请求,对 Agent 的输出结果、执行轨迹和多轮表现进行自动分析。
系统可以自动完成:
-
检测 AI 味、幻觉或不自然表达
-
分析执行轨迹与工具调用质量
-
在无参考答案的情况下完成质量判断
-
对多轮对话中的目标一致性进行评估
评估在这里不再是离线任务,而是持续运行的系统能力。
③ 从“评估结果”走向“数据资产”
当问题被检测出来之后,真正重要的是:这些问题如何被利用。
在很多系统中,评估结果只停留在一次性的分析,无法进入下一轮优化。而在 AgentArts 中,所有评估结果都会被结构化沉淀,并支持人工参与。
下图展示的是评估结果沉淀与人工修正流程:开发者可以查看具体样本、修正评估结果、标注高质量或问题样本,并将这些数据继续回流到评测集或训练数据中。
-
对评估结果进行人工修正
-
标注高质量或问题样本
-
将关键数据回流至新的评测集
-
将沉淀数据用于后续训练或偏好对齐
这些数据会成为后续版本的验证基准,甚至可以进一步用于模型训练,如强化学习或偏好对齐。
评估, Agent自优化驱动引擎
如果把前面的能力串联起来,就会形成一个完整闭环。
下图展示的是 AgentArts 中的评估闭环:评估结果被转化为一组 可度量、可比较、可回归的反馈信号,作为 Agent 系统中的“决策依据”,直接参与关键决策:
-
哪些改动是有效的,需要保留
-
哪些策略出现退化,需要回退
-
哪些问题持续出现,需要重点优化
Harness Engineering 的视角来看,这些评估结果会持续驱动 Agent 不断优化 (人工或者自我演进),具体体现在:
-
Prompt 如何重写
-
记忆如何组织
-
工具如何选择与调用
-
工作流如何调整
-
基座大模型是否需要强化对齐
每一次迭代,都会进入同一套评估标准进行回归验证,再进入下一轮循环;当这个闭环稳定运行多轮之后,最终会沉淀出一个更强、更高效、更稳定的 Agent。
这也是 AgentArts 评估服务想解决的核心问题:
让评估从“判断工具”,变成“驱动系统进化的基础设施”。
AgentArts 评估服务已在华为云平台上线,面向开发者与企业用户开放。
体验地址:
console.huaweicloud.com/agentarts/?…
添加社区小助手k8s2222,进入技术交流群