大模型评测数据集:tau-Bench

1,521 阅读4分钟

τ -bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

gitHub:github.com/sierra-rese…

论文地址:arxiv.org/pdf/2406.12…

​ 简单介绍一下“tau-bench” 是一个用于评估语言智能体(language agents)在真实场景中与用户和工具交互能力的基准测试平台,旨在衡量智能体在遵循特定领域规则的同时,与模拟用户进行动态对话并使用程序 API 完成任务的能力。

image-20250113154520328.png

摘要

​ 现有基准测试并未在语言智能体与人类用户的交互或遵循特定领域规则的能力方面进行测试,而这两者对于在现实世界应用中部署语言智能体至关重要。我们提出了 τ -bench,这是一个模拟用户(由语言模型模拟)与配备特定领域 API 工具和策略指南的语言智能体之间动态对话的基准测试。我们采用了一种高效且可靠的评估过程,通过将对话结束时的数据库状态与标注的目标状态进行比较来实现。我们还提出了一种新的指标(pass^k)来评估智能体在多次试验中的行为可靠性。我们的实验表明,即使是最先进的函数调用智能体(如 gpt - 4o)在任务中的成功率也低于 50%,并且表现出相当大的不一致性(在零售领域中 pass^8 < 25%)。我们的研究结果表明,需要有能够提高智能体行为一致性和可靠遵循规则的方法。

引言

​ 人们对语言智能体在各个行业实现新水平自动化的潜力越来越兴奋。然而,它们在实际系统中的部署需要满足几个关键需求。智能体必须(1)在较长时间范围内与人类和程序化 API 无缝交互,以逐步收集信息并确定意图;(2)准确遵守特定任务或领域的复杂政策和规则;(3)在数百万次交互中保持大规模的一致性和可靠性。例如,考虑一个航空订票智能体的情况(图 1)。当用户想要将航班预订更改到不同的目的地机场时,智能体需要通过与用户交互收集所需信息,使用提供的指南检查航空公司政策,并查找新航班,并且(如果可能)使用复杂的预订 API 为用户重新预订。此外,智能体在处理具有相同请求的不同类型用户时应保持行为一致,并且对对话流程中的微小变化具有鲁棒性,这些变化不应影响最终结果。

image-20250113155849164.png

图 1:(a)在 T 型工作台中,一个智能体与数据库 API 工具和一个由语言模型模拟的用户进行交互以完成任务。该基准测试智能体通过多次交互从用户处收集并向用户传达所有所需信息的能力,以及在确保遵循特定领域政策文件中规定的指导方针的同时即时解决复杂问题的能力。(b)τ-航空中的一个示例轨迹,其中智能体需要根据领域政策拒绝用户请求(更改基础经济舱航班)并提出新的解决方案(取消并重新预订)。这在复杂数据库、规则和用户意图的长上下文零样本推理方面对智能体提出了挑战。

​ 我们的实验表明,用简单的语言模型结构(如函数调用或 ReAct)构建的智能体表现不佳,这凸显了对更复杂的智能体架构的需求。例如,即使是像 gpt-4o 这样的最先进的语言模型,在使用函数调用时任务成功率也很低(在 τ-retail 上为 61%,在 τ-airline 上为 35%)。随着 k 的增加,持续解决任务的机会迅速下降,对于同一模型,在 T-retail 上 pass^8 的成功率低至 25%。这展示了此类智能体在处理随机性和部分信息方面的脆弱性,而这在人与智能体的交互中很常见。在分析失败案例时,我们发现当前的智能体在处理数据库的复杂推理、理解和遵循临时策略以及处理复合(多个)请求方面存在困难。我们希望 τ-bench 能够促进对更一致、更有能力的智能体的评估和开发,以用于涉及人类交互的实际数字任务。

Benchmark构建

step1:手动设计数据库模式、API 和策略。

step2:使用语言模型进行自动数据生成。

step3:通过代理运行进行手动任务标注和验证。

实验

image-20250113161036666.png