a.内容描述
该项目是一个专门用于评估语言模型在真实企业环境中文本转SQL工作流程表现的基准测试系统。该系统专注于测试大型语言模型在复杂企业级文本转SQL任务中的性能表现,涉及多种SQL方言和复杂的数据环境。
核心功能定位是为研究社区和企业用户提供一个真实、具有挑战性的评估基准,用于测试和比较不同语言模型在复杂文本转SQL任务上的能力。该系统特别关注企业级应用场景,包括处理大规模数据(超过3000列)、支持多种SQL方言(如BigQuery、Snowflake等)以及多样化的数据操作需求。
关键应用场景包括企业数据分析、商业智能报表生成、数据库查询优化等需要将自然语言转换为SQL查询的实际业务场景。该系统可帮助某知名框架开发者评估其模型在实际企业环境中的表现,并为appstore榜单上排名靠前的APP提供数据查询解决方案的技术验证。
b.功能特性
该项目提供三个主要的评估设置:Snow版本、Lite版本和DBT版本。Snow版本完全基于Snowflake数据库,包含547个评估示例,无需任何使用成本;Lite版本支持BigQuery、Snowflake和SQLite三种数据库,同样包含547个示例,但会产生一定的使用成本;DBT版本专注于代码代理任务,包含68个基于DuckDB的评估任务。
系统提供完整的评估框架,包括数据准备、模型测试和结果验证功能。支持工具调用格式的快速基准测试,无需Docker环境,显著提升运行时性能。同时提供真实的企业级数据库环境,包括复杂的数据模式和多样的查询需求。
特性包括多数据库支持、真实企业数据场景、自动化评估流程、结果比对功能以及灵活的配置选项。用户可以通过提供的Spider-Agent框架快速进行模型基准测试,并生成符合要求的CSV格式输出结果。
d.使用说明
使用该系统需要先注册BigQuery和Snowflake账户。对于BigQuery账户,需要按照提供的指南获取自己的凭证;对于Snowflake账户,需要填写访问申请表,系统会发送账户注册邮件。
对于Snow版本的评估,推荐使用工具调用格式的Spider-Agent实现,这是一个无需Docker且运行速度极快的解决方案。对于Snow和Lite版本的评估,可以使用基于Docker的Spider-Agent框架,系统强烈建议用户直接使用这两个版本进行基准测试和研究。
DBT版本的使用需要参考专门的数据和方法文档。所有评估结果需要按照指定的提交指南格式进行提交,才能将分数上传到官方排行榜。
系统提供部分示例的黄金答案用于自我评估,但只有少量黄金SQL可用。要获得方法的官方验证并将分数上传到排行榜,必须遵循指定的提交指南。
e.潜在新需求
(1)用户希望支持基于LLM判断的结果评估机制,而不是严格的字面匹配规则,以提高对格式差异的容错能力
(2)用户希望延长或取消Snowflake SQL查询的60秒时间限制,以支持更复杂的查询场景
(3)用户希望提供完整的黄金SQL语句而不仅仅是执行结果,以便更好地理解预期查询逻辑
(4)用户希望提供更清晰的数据库架构信息,包括主外键约束关系和完整的表结构文档
(5)用户希望改进数值比较的容差设置,支持更高精度的数值结果比对
(6)用户希望提供更完善的环境依赖管理,包括完整的requirements.txt文件和支持不同硬件平台(如Apple M系列芯片)的安装方案
(7)用户希望提供更多的训练数据和使用指南,包括数据集划分方案和允许的训练范围说明
(8)用户希望支持DuckDB源表的dbt兼容性,扩展数据工作流的集成能力
(9)用户希望提供更详细的错误处理和权限管理指导,解决常见的访问权限和配额限制问题
(10)用户希望提供基线模型的预测结果和实现代码,便于研究对比和进一步开发