【General Agent Benchmark】论文分享：AgentBench论文名称：AgentBench: Eva

论文名称：AgentBench: Evaluating LLMs as Agents

论文链接：arxiv.org/abs/2308.03…

机构：清华 ChatGLM 团队

Github 链接：github.com/THUDM/Agent…

官方界面：llmbench.ai/agent

简介

AgentBench是由清华大学KEG与数据挖掘团队提出的综合性基准测试，旨在系统评估AIAgent在复杂交互环境中的综合能力，也是第一个在不同环境中评估LLM as Agent的Benchmark。

团队认为Agent能力主要包含八个部分：① 理解人类意图并执行指令；② 编码能力；③ 知识获取和推理；④ 策略决策；⑤ 多轮一致性；⑥ 逻辑推理；⑦ 自主探索；⑧ 可解释的推理。

只有LLM能完成上述具体任务，才可能承担好 AI Agent的工作。为了达成上述评估目标，作者首先新创建了5个环境，评估LLM as Agent的能力：

① 操作系统（OS）：评估LLM在Linux系统的bash环境中的操作能力，如文件操作、用户管理等。

② 数据库（DB）：考察LLM利用SQL操作给定的数据库完成查询、修改等任务。

③ 知识图谱（KG）：需要LLM利用给定的工具查询知识图谱，完成复杂的知识获取任务。

④ 卡牌游戏（DCG）：将LLM视为玩家，根据规则和状态进行数字卡牌游戏，评估策略决策能力。

⑤ 横向思维难题（LTP）：提供难题故事，LLM需要进行问答来推理得到真相，检查横向思维能力。

以及从已发布的数据集重新编译的3个环境数据:

⑥ 家庭环境（HH）：在模拟的家中场景下，LLM需要自主完成日常任务，如搬移物品等。

⑦ 网络购物（WS）：按照要求在模拟购物网站上浏览和购买商品，评估自主探索决策能力。

⑧ 网页浏览（WB）：在真实网页环境中，根据高级指令实现操作序列，完成网页任务。

官方的 Github 界面已经给出详细的操作指南，主要分为四步：环境配置 -> 配置Agent -> 启动任务服务器 -> 启动任务测试。因为涉及到多个任务，所以需要分别起服务评测，资源消耗情况大致如下:：

各场景得分的加权平均，反映模型作为Agent的综合能力。

各任务独立计算完成率，揭示模型能力短板。

统计10类失败原因（如错误工具调用、逻辑推理错误），指导针对性优化。

评估任务完成所需交互轮次与耗时，衡量Agent决策效率。

评测集设计比较全面，但聚焦的评测维度是LLM As Agent所具备的原子能力，对于Agent能否顺利且完整的完成一个现实任务的过程并没有做评测，与GAIA能形成互补的局面。