🧪 你的大模型实验室开张啦!亲手测出最懂你 SQL 的 AI

0 阅读5分钟

main.png

👋 SCALE 用户们的心声

在社区与用户的持续交流中,我们发现有两类高频需求始终未被充分满足。

test-llm

需求一​:我想知道某些榜单上没有的模型,或者我们团队微调/私有部署的模型,它的 SQL 能力是什么水平,缺少标准化的评测基准和工具。

需求二​:榜单上的模型很多,但我们的业务场景比较特殊,榜单分数不能直接指导选型,需要用自己的数据跑一遍才放心。

现在,SCALE 正式推出 ​模型测评实验室​,直接回应这两个核心诉求。

  • 自定义模型测评​:接入模型 API,选择关注的测评维度,即可获得与 SCALE 榜单同标准的能力评估报告。
  • 自定义数据集测评​:上传业务数据集,勾选候选模型,即可获得贴合真实场景的模型对比结果。

简而言之 — ​**用户定义 “测什么” 和 “测谁”**​,SCALE 负责给出专业、可信的答案。

👉️ 你来决定测什么模型

模型测评实验室 界面中的 自定义模型测评 部分点击创建测评。用户只需三步,即可验证自有模型在 SQL 赛道上的真实段位。

diy-llm

第一步:接入模型

填写模型名称和 API 参数。支持 OpenAI 标准接口格式,兼容该接口的模型只需填入 openai_api_basekeymodel 即可完成接入。

config-llm

第二步:选择关注的测评维度

不需要跑完所有测试 —— 根据实际关注点,自由勾选需要评测的维度和子维度即可。例如:

  • 模型主要用于查询性能调优?

    只勾选 SQL 优化 下的相关子维度

  • 关注跨数据库迁移能力?

    只勾选 方言转换

  • 想做一次全面体检?

    全部选择

    change-datasets

选择后,页面会实时显示预估 Token 消耗,便于提前评估成本。每个子维度还支持查看数据集详情,测评前即可了解 “考题”。

第三步:确认并等待报告

确认模型参数和测评范围后,填写接收邮箱即可提交。测评完成后,《评测报告》将直接发送至邮箱。

适用场景

  • 企业技术选型​:正在评估某个榜单目前没有模型能否胜任内部 SQL 相关任务,需要一份客观的能力报告。
  • 模型研发团队​:微调或训练了面向 SQL 场景的模型,需要用权威基准验证能力水平、找到短板方向。
  • 模型服务商​:希望了解自家模型在 SCALE 标准下的表现,为产品迭代和市场定位提供数据支撑。

获得的价值

接入模型 API 后,将获得一份与 SCALE 榜单模型同数据集、同维度、同标准的专业评测报告。这意味着可以直接将自有模型的表现与 GPT、Claude、Gemini、DeepSeek、MiniMax 等主流模型进行横向对标,清晰定位能力梯队和提升方向。

👉️ 你来决定测什么数据

模型测评实验室 界面中的 自定义数据集测评 部分点击创建测评。用户可以在真实业务数据中测试出哪款模型最适合。

diy-datasets

第一步:上传数据集,选择候选模型

上传测评数据集(支持 jsonl 或 csv 格式),描述测评方向和评价标准。随后从 SCALE 榜单中 勾选想对比的模型 —— 可以只选 2-3 个最终候选做精准对比,也可以选更多做全面摸底,完全按需决定。

当前模型覆盖国内外主流厂商,如果关注的模型不在列表中,也可以提交扩展请求。

change-llm

第二步:填写联系方式

留下姓名、手机号和企业名称,便于测评完成后联系交付报告。商业信息严格保密。

适用场景

  • 技术选型决策者​:团队正在为某个 SQL 相关项目选择大模型,榜单排名是参考,但真正的决策依据应该来自自己的业务数据
  • DBA/数据工程团队​:手头有一批典型的业务 SQL(慢查询、迁移脚本、复杂报表等),想看看不同模型处理这些 SQL 的实际效果
  • 产品经理/架构师​:需要为管理层提供一份基于真实场景的模型对比报告,支撑采购或集成决策

获得的价值

上传业务数据后,SCALE 会用勾选的模型逐一运行测评,输出一份 ​基于真实业务场景的模型对比报告​。不同于通用榜单分数,这份报告直接回答 ​哪个模型最适合你的业务​。

🤔 哪种测评模式更合适你?

验证自有模型的 SQL 能力水平

  • 推荐模式:自定义模型测评
  • 需要准备:模型 API 相关参数
  • 将获得:《模型 SQL 能力评估报告》

用业务数据对比不同模型的实际表现

  • 推荐模式:自定义数据集测评
  • 需要准备:业务数据集(jsonl/csv)
  • 将获得:基于真实场景的《模型对比报告》& 专业咨询

🤔 为什么要推出此功能?

模型测评实验室 解决的核心问题是:​让评测回归真实需求​。

每个团队的模型不同、业务不同、关注点不同 —— 通用榜单排名是重要参考,但无法替代针对性的评估。模型测评实验室 正是为此而生:用户决定测评的维度和对象,SCALE 确保评测过程的专业性和结果的可信度。

欢迎访问 SCALE 官方平台,进入「​模型测评实验室​」开启专属测评。测评完成后我们会主动联系,提供详细的测评报告和专业的咨询服务。如有任何问题,欢迎随时与我们联系。