华为云 AgentArts 智能体评估, 驱动智能体自优化华为云AgentArts突破传统大模型单点评测局限，构建结果、

Agent评估，你真的做对了吗

在过去，评估大模型相对简单：我们只需要衡量回答对不对。

无论是文本生成、问答，还是代码补全，评估对象通常都是模型的一次输出。

但 Agent 不一样。

Agent 不只是生成答案，而是在完成一个任务：它需要理解目标、规划步骤、调用工具、观察反馈，并在多轮交互中不断调整执行路径。

这也让评估从一件“简单判断对错”的事情，变成了一个真实而复杂的工程问题。

在实际开发中，团队往往会遇到几个非常具体的困难：

● 评估成本高、速度慢

很多评测仍然依赖人工标注，不仅成本高，而且周期长，严重拖慢 Agent 的迭代节奏。

● 结果不稳定，难以复现

同样的输入，在不同时间可能得到不同输出，评估像“抽盲盒”，很难做回归测试，也难以定位问题。

● 过程不可见，难以诊断

Agent 是真的一步步执行正确，还是“最后一步碰巧答对”，往往无法判断，问题也难以被准确归因。

这些问题，使得评估不再只是一个辅助工具，而逐渐成为 Agent 工程化落地过程中的关键瓶颈。很多团队最终只能依赖经验、日志排查，甚至是“感觉”，来判断一个 Agent 到底表现好不好。

也正是为了解决这些问题，我们在 AgentArts 中构建了一套面向 Agent 的评估体系。它不只关注最终答案是否正确，也关注任务执行过程中每一步是否合理、可控、可诊断。

我们希望通过这套体系，把评估从上线前的一次性检查，变成贯穿开发、调试、上线与运行全过程的基础能力。

从这张图可以看到，Agent 评估的对象已经不再只是一次输出，而是从用户输入、模型理解、工具调用、多轮交互到最终结果的完整执行过程。

Agent, 我们到底在评什么

每一个 Agent 开发者在构建 Agent 的过程中，都会面对一个核心问题：如何衡量自己的 Agent 效果。

比如，做问答助手时，开发者关心的是 Agent 有没有真正解决用户问题；做新闻撰稿 Agent 时，更关心检索来源是否真实、是否具备时效性；做企业流程 Agent 时，还要关注工具调用是否正确、执行路径是否可控。

但问题在于，这些关注点往往是分散的。大多数开发者很难同时覆盖所有维度，也因此常常会怀疑：这套评估到底是否全面、是否准确。

在 AgentArts 中，我们将 Agent 评估收敛为三个核心维度：

结果层：输出是否正确、有用、合规、安全
过程层：执行路径是否合理，包括工具选择、参数填充、轨迹质量
交互层：多轮过程中是否稳定，包括上下文保持、目标一致性

这三个层次，本质上对应了工程中最关键的三个问题：

结果对不对 → 过程是否合理 → 多轮是否稳定

围绕这三层结构，AgentArts 内置了 40+ 经过业务验证的评估器，覆盖输出质量、执行路径与多轮交互等关键环节，并统一组织为一套完整的评估体系。

下图展示的就是 AgentArts 的评估器体系：它不是单一指标，而是围绕结果、过程、交互三个层次，提供多维度、可组合的评估能力。

在实际使用中，用户可以基于数据集，或直接调用线上 Agent 发起评测任务，系统会自动完成执行与打分。

下面是一个典型的评估任务界面。用户可以选择评估对象、配置评估数据和评估指标，将原本依赖人工判断的过程，转化为可复用的自动化评测任务。

评测任务执行后，系统会输出任务成功率、指标得分、样本明细等信息，帮助开发者快速判断当前 Agent 版本的整体表现。

在实际运行中，评估效率直接决定了它是否能够被持续使用。

从上图可以看到，在一个包含 30 条数据的评测任务中，整个执行过程仅耗时 37 秒，并完成了 100% 的任务成功率统计与多维指标分析。

相比传统依赖人工评估的方式，这种自动化评测大幅降低了时间成本，使评估可以真正融入日常开发与迭代流程，而不是变成上线前偶尔执行一次的“重流程”。

基于这一点，AgentArts 在工程实现上重点优化了评估的规模化与执行效率，使评估可以支撑真实业务中的持续迭代。目前系统具备以下能力：

覆盖 Agent 全链路评估
千条级数据评测可在小时级完成
支持超长链路执行轨迹评估（上下文长度最高可达 2M）
支持多版本策略的统一评估、对比与回退
多指标多维度同时评估
支持大规模数据并行执行评测任务
支持智能评测集生成（仅需少于3 条样本即可构建高质量、多样化评测数据）
支持 Code-based 规则评估与 LLM Judge，半数以上评估器准确率超过 90%，稳定对齐人类偏好

评估，如何真正发挥作用

如果说前面的能力解决的是“如何评估”，那么接下来的问题是：

评估结果，如何真正参与系统优化？

在 AgentArts 中，评估是沿着 Agent 的真实运行路径发生的。

下图展示了 AgentArts 评估服务的整体链路：从用户输入开始，Agent 完成任务理解、工具调用和多轮交互；执行过程中产生的数据会通过 SDK 被采集，并在平台中结构化存储为 Trace；随后，这些 Trace 会进入评估引擎，按照结果层、过程层和交互层进行分析，最终输出评估结果和报告。

如果只停留在这里，评估依然只是对“已经发生的执行”的一次分析。更重要的是：

这些评估结果，能够反过来影响系统本身。

因此，AgentArts 不是只做一次性打分，而是把评估接入到数据构建、在线运行、人工修正和版本迭代的完整流程中。

① 从“没有数据”开始

在实际开发中，第一个问题往往不是模型，而是数据。

很多团队在构建 Agent 时，很难找到覆盖真实场景的评测集：要么数据过少，要么表达单一，更缺乏边界条件和长尾情况。

在 AgentArts 中，用户可以直接通过自然语言描述任务场景，系统自动生成评测数据。

下图展示的是智能评测集生成能力：开发者只需要提供少量样例或任务描述，系统就可以围绕场景语义进行扩展，生成更丰富的评测数据。

系统会基于语义扩展生成多样化数据，包括：

不同表达方式与输入风格
边界条件与长尾场景
正负样例与对抗数据

从少量描述出发，即可构建一批接近真实分布的评测集。评估不再受限于“有没有数据”，而是可以主动生成覆盖范围。

② 从“离线验证”走向“在线评估”

有了评测集之后，下一步是评估执行。

但在真实系统中，仅靠离线评测是不够的。很多问题只会在真实用户交互中暴露，而这些问题如果不能被及时捕捉，就很难定位。

在 AgentArts 中，评估能力可以直接接入运行链路，实现在线评估。

下图展示的是在线评估能力：系统可以基于真实用户请求，对 Agent 的输出结果、执行轨迹和多轮表现进行自动分析。

系统可以自动完成：

检测 AI 味、幻觉或不自然表达
分析执行轨迹与工具调用质量
在无参考答案的情况下完成质量判断
对多轮对话中的目标一致性进行评估

评估在这里不再是离线任务，而是持续运行的系统能力。

③ 从“评估结果”走向“数据资产”

当问题被检测出来之后，真正重要的是：这些问题如何被利用。

在很多系统中，评估结果只停留在一次性的分析，无法进入下一轮优化。而在 AgentArts 中，所有评估结果都会被结构化沉淀，并支持人工参与。

下图展示的是评估结果沉淀与人工修正流程：开发者可以查看具体样本、修正评估结果、标注高质量或问题样本，并将这些数据继续回流到评测集或训练数据中。

对评估结果进行人工修正
标注高质量或问题样本
将关键数据回流至新的评测集
将沉淀数据用于后续训练或偏好对齐

这些数据会成为后续版本的验证基准，甚至可以进一步用于模型训练，如强化学习或偏好对齐。

评估, Agent自优化驱动引擎

如果把前面的能力串联起来，就会形成一个完整闭环。

下图展示的是 AgentArts 中的评估闭环：评估结果被转化为一组 可度量、可比较、可回归的反馈信号，作为 Agent 系统中的“决策依据”，直接参与关键决策：

哪些改动是有效的，需要保留
哪些策略出现退化，需要回退
哪些问题持续出现，需要重点优化

Harness Engineering 的视角来看，这些评估结果会持续驱动 Agent 不断优化 (人工或者自我演进)，具体体现在：

Prompt 如何重写
记忆如何组织
工具如何选择与调用
工作流如何调整
基座大模型是否需要强化对齐

每一次迭代，都会进入同一套评估标准进行回归验证，再进入下一轮循环；当这个闭环稳定运行多轮之后，最终会沉淀出一个更强、更高效、更稳定的 Agent。

这也是 AgentArts 评估服务想解决的核心问题：

让评估从“判断工具”，变成“驱动系统进化的基础设施”。

AgentArts 评估服务已在华为云平台上线，面向开发者与企业用户开放。

体验地址:

console.huaweicloud.com/agentarts/?…

添加社区小助手k8s2222，进入技术交流群