论文名称:GAIA: a benchmark for General AI Assistants
机构:Meta + Huggingface + AutoGPT
简介
GAIA(General AI Assistants Benchmark)是由Meta、HuggingFace和AutoGPT团队联合推出的基准测试,旨在评估通用AI助手在现实场景中处理多步骤推理、工具使用和多模态任务的能力。
任务设计原则
GAIA聚焦于对人类简单但对AI困难的任务,例如需要多工具协作的日常查询(如网页搜索+数据分析+逻辑推理)。其问题源自真实场景,如计算临床试验注册人数、解析政府文件中的营养成分标准等。
分级难度体系
- Level1(基础任务):单一步骤或简单工具使用(如基本搜索/计算),例如
法国的首都是什么?。 - Level2(中级任务):5-10步操作及多工具协同,例如
分析PDF图表后生成销售额增长报告。 - Level3(高级任务):开放式复杂任务,例如
解析NASA历史图片中的宇航员信息并关联数据库查询,需自主规划步骤链和工具组合。
多模态与工具集成
测试涵盖文本、图像、表格、网页浏览等多种模态,并要求调用API、数据库等工具,例如通过维基百科查询联邦标准后计算食品脂肪含量偏差。
答案标准化
所有问题均设计为明确无歧义的答案(如数值、日期、专有名词),避免主观评分干扰。
使用方法
Step 1:数据集获取
官方在Hugging Face发布了466个测试问题(公开验证集165+私有测试集301),其中私有测试集仅允许通过官方Leaderboard提交结果,不会给真正的GroudTruth,但会给出实际问题,有一定程度上的Hack空间。
Step 2:运行Agent
选择开发好的Agent,启动好服务。
Step3:执行GAIA问题
通过命令行或Web界面输入问题,拿到测试集提交所需的结果。
Step4:结果验证与提交
先本地对比Agent结果与validation集的GroudTruth,如果分数可以,在官方HuggingFace界面提交测试。
评价指标
核心指标:Pass@1准确率
即单次任务执行的成功率,例如Manus在Level1-3的得分分别为86.5%、70.1%、57.7%,而人类平均成功率高达92%。
辅助指标
- 步骤复杂度(Number of steps):Level1通常≤5步,Level2需要5-10步,Level3无上限。
- 工具多样性(Number of tools):成功任务中调用的工具种类和协同效率(如同时使用搜索+数据库+图像解析)。
- 时间效率(How long did this take):人类平均耗时约10分钟/问题,AI系统需平衡速度与准确性。
总结
任务设计出发点很好,聚焦对人类简单但对AI复杂的题目,接入评测也很方便,可直接评测AIAgent的表现。但题目整体覆盖面不够,且test集问题不够黑盒,留了一定的Hack空间。