华为云 AgentArts 智能体评估, 驱动智能体自优化

0 阅读1分钟

Agent评估,你真的做对了吗

在过去,评估大模型相对简单:我们只需要衡量回答对不对

无论是文本生成、问答,还是代码补全,评估对象通常都是模型的一次输出。

但 Agent 不一样。

Agent 不只是生成答案,而是在完成一个任务:它需要理解目标、规划步骤、调用工具、观察反馈,并在多轮交互中不断调整执行路径。

这也让评估从一件“简单判断对错”的事情,变成了一个真实而复杂的工程问题。

在实际开发中,团队往往会遇到几个非常具体的困难:

● 评估成本高、速度慢

很多评测仍然依赖人工标注,不仅成本高,而且周期长,严重拖慢 Agent 的迭代节奏。

● 结果不稳定,难以复现

同样的输入,在不同时间可能得到不同输出,评估像“抽盲盒”,很难做回归测试,也难以定位问题。

● 过程不可见,难以诊断

Agent 是真的一步步执行正确,还是“最后一步碰巧答对”,往往无法判断,问题也难以被准确归因。

这些问题,使得评估不再只是一个辅助工具,而逐渐成为 Agent 工程化落地过程中的关键瓶颈。很多团队最终只能依赖经验、日志排查,甚至是“感觉”,来判断一个 Agent 到底表现好不好。

也正是为了解决这些问题,我们在 AgentArts 中构建了一套面向 Agent 的评估体系。它不只关注最终答案是否正确,也关注任务执行过程中每一步是否合理、可控、可诊断。

我们希望通过这套体系,把评估从上线前的一次性检查,变成贯穿开发、调试、上线与运行全过程的基础能力。

从这张图可以看到,Agent 评估的对象已经不再只是一次输出,而是从用户输入、模型理解、工具调用、多轮交互到最终结果的完整执行过程。

1.png

Agent, 我们到底在评什么

每一个 Agent 开发者在构建 Agent 的过程中,都会面对一个核心问题:如何衡量自己的 Agent 效果。

比如,做问答助手时,开发者关心的是 Agent 有没有真正解决用户问题;做新闻撰稿 Agent 时,更关心检索来源是否真实、是否具备时效性;做企业流程 Agent 时,还要关注工具调用是否正确、执行路径是否可控。

但问题在于,这些关注点往往是分散的。大多数开发者很难同时覆盖所有维度,也因此常常会怀疑:这套评估到底是否全面、是否准确。

在 AgentArts 中,我们将 Agent 评估收敛为三个核心维度:

  • 结果层:输出是否正确、有用、合规、安全
  • 过程层:执行路径是否合理,包括工具选择、参数填充、轨迹质量
  • 交互层:多轮过程中是否稳定,包括上下文保持、目标一致性

这三个层次,本质上对应了工程中最关键的三个问题:

结果对不对 → 过程是否合理 → 多轮是否稳定

围绕这三层结构,AgentArts 内置了 40+ 经过业务验证的评估器,覆盖输出质量、执行路径与多轮交互等关键环节,并统一组织为一套完整的评估体系。

下图展示的就是 AgentArts 的评估器体系:它不是单一指标,而是围绕结果、过程、交互三个层次,提供多维度、可组合的评估能力。

2.png

在实际使用中,用户可以基于数据集,或直接调用线上 Agent 发起评测任务,系统会自动完成执行与打分。

下面是一个典型的评估任务界面。用户可以选择评估对象、配置评估数据和评估指标,将原本依赖人工判断的过程,转化为可复用的自动化评测任务。

2-1.png

评测任务执行后,系统会输出任务成功率、指标得分、样本明细等信息,帮助开发者快速判断当前 Agent 版本的整体表现。

3.png

在实际运行中,评估效率直接决定了它是否能够被持续使用。

从上图可以看到,在一个包含 30 条数据的评测任务中,整个执行过程仅耗时 37 秒,并完成了 100% 的任务成功率统计与多维指标分析。

相比传统依赖人工评估的方式,这种自动化评测大幅降低了时间成本,使评估可以真正融入日常开发与迭代流程,而不是变成上线前偶尔执行一次的“重流程”。

基于这一点,AgentArts 在工程实现上重点优化了评估的规模化与执行效率,使评估可以支撑真实业务中的持续迭代。目前系统具备以下能力:

  • 覆盖 Agent 全链路评估
  • 千条级数据评测可在小时级完成
  • 支持超长链路执行轨迹评估(上下文长度最高可达 2M)
  • 支持多版本策略的统一评估、对比与回退
  • 多指标多维度同时评估
  • 支持大规模数据并行执行评测任务
  • 支持智能评测集生成(仅需少于3 条样本即可构建高质量、多样化评测数据)
  • 支持 Code-based 规则评估与 LLM Judge,半数以上评估器准确率超过 90%,稳定对齐人类偏好

评估,如何真正发挥作用

如果说前面的能力解决的是“如何评估”,那么接下来的问题是:

评估结果,如何真正参与系统优化?

在 AgentArts 中,评估是沿着 Agent 的真实运行路径发生的。

下图展示了 AgentArts 评估服务的整体链路:从用户输入开始,Agent 完成任务理解、工具调用和多轮交互;执行过程中产生的数据会通过 SDK 被采集,并在平台中结构化存储为 Trace;随后,这些 Trace 会进入评估引擎,按照结果层、过程层和交互层进行分析,最终输出评估结果和报告。

5.png

如果只停留在这里,评估依然只是对“已经发生的执行”的一次分析。更重要的是:

这些评估结果,能够反过来影响系统本身。

因此,AgentArts 不是只做一次性打分,而是把评估接入到数据构建、在线运行、人工修正和版本迭代的完整流程中。

① 从“没有数据”开始

在实际开发中,第一个问题往往不是模型,而是数据。

很多团队在构建 Agent 时,很难找到覆盖真实场景的评测集:要么数据过少,要么表达单一,更缺乏边界条件和长尾情况。

在 AgentArts 中,用户可以直接通过自然语言描述任务场景,系统自动生成评测数据。

下图展示的是智能评测集生成能力:开发者只需要提供少量样例或任务描述,系统就可以围绕场景语义进行扩展,生成更丰富的评测数据。

6.png

系统会基于语义扩展生成多样化数据,包括:

  • 不同表达方式与输入风格

  • 边界条件与长尾场景

  • 正负样例与对抗数据

从少量描述出发,即可构建一批接近真实分布的评测集。评估不再受限于“有没有数据”,而是可以主动生成覆盖范围。

② 从“离线验证”走向“在线评估”

有了评测集之后,下一步是评估执行。

但在真实系统中,仅靠离线评测是不够的。很多问题只会在真实用户交互中暴露,而这些问题如果不能被及时捕捉,就很难定位。

在 AgentArts 中,评估能力可以直接接入运行链路,实现在线评估。

下图展示的是在线评估能力:系统可以基于真实用户请求,对 Agent 的输出结果、执行轨迹和多轮表现进行自动分析。

7.png

系统可以自动完成:

  • 检测 AI 味、幻觉或不自然表达

  • 分析执行轨迹与工具调用质量

  • 在无参考答案的情况下完成质量判断

  • 对多轮对话中的目标一致性进行评估

评估在这里不再是离线任务,而是持续运行的系统能力。

③ 从“评估结果”走向“数据资产”

当问题被检测出来之后,真正重要的是:这些问题如何被利用。

在很多系统中,评估结果只停留在一次性的分析,无法进入下一轮优化。而在 AgentArts 中,所有评估结果都会被结构化沉淀,并支持人工参与。

下图展示的是评估结果沉淀与人工修正流程:开发者可以查看具体样本、修正评估结果、标注高质量或问题样本,并将这些数据继续回流到评测集或训练数据中。

8.png

  • 对评估结果进行人工修正

  • 标注高质量或问题样本

  • 将关键数据回流至新的评测集

  • 将沉淀数据用于后续训练或偏好对齐

这些数据会成为后续版本的验证基准,甚至可以进一步用于模型训练,如强化学习或偏好对齐。

评估, Agent自优化驱动引擎

如果把前面的能力串联起来,就会形成一个完整闭环。

下图展示的是 AgentArts 中的评估闭环:评估结果被转化为一组 可度量、可比较、可回归的反馈信号,作为 Agent 系统中的“决策依据”,直接参与关键决策:

  • 哪些改动是有效的,需要保留

  • 哪些策略出现退化,需要回退

  • 哪些问题持续出现,需要重点优化

9.png

Harness Engineering 的视角来看,这些评估结果会持续驱动 Agent 不断优化 (人工或者自我演进),具体体现在:

  • Prompt 如何重写

  • 记忆如何组织

  • 工具如何选择与调用

  • 工作流如何调整

  • 基座大模型是否需要强化对齐

每一次迭代,都会进入同一套评估标准进行回归验证,再进入下一轮循环;当这个闭环稳定运行多轮之后,最终会沉淀出一个更强、更高效、更稳定的 Agent。

这也是 AgentArts 评估服务想解决的核心问题:

让评估从“判断工具”,变成“驱动系统进化的基础设施”。

AgentArts 评估服务已在华为云平台上线,面向开发者与企业用户开放。

10.png

体验地址:

console.huaweicloud.com/agentarts/?…

添加社区小助手k8s2222,进入技术交流群