【General Agent Benchmark】论文分享：WorfBench论文名称：Benchmarking Age

论文名称：Benchmarking Agentic Workflow Generation

论文链接：arxiv.org/abs/2410.07…

机构：浙大 + 通义

Github 链接：github.com/zjunlp/Worf…

简介

WorfBench是由浙江大学与通义团队联合推出的Agent工作流生成评测基准，旨在系统性评估Agent在复杂任务规划中的结构化工作流生成能力。

评测集包含问题解决（problem solving）、函数调用（function calling）、具身规划（embodied planning）和开放式规划（open-ended planning），并采用有向无环图（DAG）建模工作流。示例场景包括多步API调用、跨工具协作等。

① 训练集（18k）：用于模型微调，提升结构化工作流生成能力。

② 测试集（2146）：评估模型在已知任务上的性能，覆盖多场景与复杂图结构。

③ OOD任务集（723）：验证模型对未见过任务的泛化能力，例如跨领域任务迁移。

① 输入：任务的自然语言描述。

② 输出：模型生成的工作流（DAG形式）。

通过子序列匹配算法衡量链式工作流的准确性（如步骤顺序是否合理）。

通过子图匹配算法量化DAG结构的正确性（如并行任务依赖关系是否准确）。

顾名思义，WorfBench就是评价LLM As Agent时，生成结构化Workflow工作流的能力，类似是评估LLM的Planning 的能力，能为模型选型提供好的建议，但用来评估完整的Agent能力，显得不够。