【General Agent Benchmark】论文分享:WorfBench

182 阅读1分钟

论文名称:Benchmarking Agentic Workflow Generation

论文链接:arxiv.org/abs/2410.07…

机构:浙大 + 通义

Github 链接:github.com/zjunlp/Worf…

简介

WorfBench是由浙江大学与通义团队联合推出的Agent工作流生成评测基准,旨在系统性评估Agent在复杂任务规划中的结构化工作流生成能力

评测集

评测集包含问题解决(problem solving)、函数调用(function calling)、具身规划(embodied planning)和开放式规划(open-ended planning),并采用有向无环图(DAG)建模工作流。示例场景包括多步API调用、跨工具协作等。

使用方法

数据集划分与应用

① 训练集(18k):用于模型微调,提升结构化工作流生成能力。

② 测试集(2146):评估模型在已知任务上的性能,覆盖多场景与复杂图结构。

③ OOD任务集(723):验证模型对未见过任务的泛化能力,例如跨领域任务迁移。

模型评估流程

① 输入:任务的自然语言描述。

② 输出:模型生成的工作流(DAG形式)。

评价指标

线性规划能力

通过子序列匹配算法衡量链式工作流的准确性(如步骤顺序是否合理)。

图规划能力

通过子图匹配算法量化DAG结构的正确性(如并行任务依赖关系是否准确)。

总结

顾名思义,WorfBench就是评价LLM As Agent时,生成结构化Workflow工作流的能力,类似是评估LLM的Planning 的能力,能为模型选型提供好的建议,但用来评估完整的Agent能力,显得不够。