【General Agent Benchmark】论文分享:GAIA

677 阅读3分钟

论文名称:GAIA: a benchmark for General AI Assistants

论文链接:arxiv.org/abs/2311.12…

机构:Meta + Huggingface + AutoGPT

评测集链接:huggingface.co/datasets/ga…

榜单链接:huggingface.co/spaces/gaia…

简介

GAIA(General AI Assistants Benchmark)是由Meta、HuggingFace和AutoGPT团队联合推出的基准测试,旨在评估通用AI助手在现实场景中处理多步骤推理、工具使用和多模态任务的能力。

任务设计原则

GAIA聚焦于对人类简单但对AI困难的任务,例如需要多工具协作的日常查询(如网页搜索+数据分析+逻辑推理)。其问题源自真实场景,如计算临床试验注册人数、解析政府文件中的营养成分标准等。

分级难度体系

  • Level1(基础任务):单一步骤或简单工具使用(如基本搜索/计算),例如法国的首都是什么?
  • Level2(中级任务):5-10步操作及多工具协同,例如分析PDF图表后生成销售额增长报告
  • Level3(高级任务):开放式复杂任务,例如解析NASA历史图片中的宇航员信息并关联数据库查询,需自主规划步骤链和工具组合。

多模态与工具集成

测试涵盖文本、图像、表格、网页浏览等多种模态,并要求调用API、数据库等工具,例如通过维基百科查询联邦标准后计算食品脂肪含量偏差

答案标准化

所有问题均设计为明确无歧义的答案(如数值、日期、专有名词),避免主观评分干扰。

使用方法

Step 1:数据集获取

官方在Hugging Face发布了466个测试问题(公开验证集165+私有测试集301),其中私有测试集仅允许通过官方Leaderboard提交结果,不会给真正的GroudTruth,但会给出实际问题,有一定程度上的Hack空间

Step 2:运行Agent

选择开发好的Agent,启动好服务。

Step3:执行GAIA问题

通过命令行或Web界面输入问题,拿到测试集提交所需的结果。

Step4:结果验证与提交

先本地对比Agent结果与validation集的GroudTruth,如果分数可以,在官方HuggingFace界面提交测试。

评价指标

核心指标:Pass@1准确率

即单次任务执行的成功率,例如Manus在Level1-3的得分分别为86.5%、70.1%、57.7%,而人类平均成功率高达92%。

辅助指标

  • 步骤复杂度(Number of steps):Level1通常≤5步,Level2需要5-10步,Level3无上限。
  • 工具多样性(Number of tools):成功任务中调用的工具种类和协同效率(如同时使用搜索+数据库+图像解析)。
  • 时间效率(How long did this take):人类平均耗时约10分钟/问题,AI系统需平衡速度与准确性。

总结

任务设计出发点很好,聚焦对人类简单但对AI复杂的题目,接入评测也很方便,可直接评测AIAgent的表现。但题目整体覆盖面不够,且test集问题不够黑盒,留了一定的Hack空间。