Sauce Labs 推出AI驱动的“意图驱动测试”工具,旨在解决AI代码生成加速后,测试成为瓶颈的问题。该工具通过自然语言描述生成测试套件,提升测试效率和耐用性,并利用其庞大的历史测试数据构建竞争优势,应对通用LLM在专业领域知识的不足。
译自:Sauce Labs wants to solve an AI-created problem nobody wanted to work on
作者:Frederic Lardinois
AI代码生成工具压缩了软件开发周期,但测试并未跟上。Sauce Labs 认为它找到了答案。
为了确保测试不会成为瓶颈,Sauce Labs 本周 推出了 AI测试编写工具,该工具围绕其所谓的“意图驱动测试”构建。
工程师或产品经理无需像以前那样编写指定每次点击、浏览器和操作系统的测试脚本,而是可以使用这个新工具来描述应用程序应该做什么,无论是通过自然语言、Jira 规范,甚至通过 Figma 设计。然后平台会生成可执行的测试套件,这些套件不与任何特定框架绑定,并在 Sauce 的云平台上跨虚拟和真实设备运行。
为什么测试会成为瓶颈
大约一年前从 Automation Anywhere 加入 Sauce Labs 担任首席执行官的 Prince Kohli,对测试为何被忽视给出了一个相当直接的诊断:没有人愿意解决这个问题。
“这不酷。因此,大多数工程负责人倾向于将其推迟并降低优先级。”
“这不酷,”Kohli 告诉 The New Stack。“因此,大多数工程负责人倾向于将其推迟并降低优先级。”
结果是二十年的漂移。“二十年前,是缺乏兴趣。十五年前,当手动质量保证开始变得更加自动化时,它进入了自己的旅程,是将其外包给更便宜的人,还是开始自动化?” Kohli 说。“这就是过去二十年的测试,这不是一个令人愉快的地方。”
从手动测试到自动化测试的转变是进步,但 Kohli 认为它未能从根本上重新思考测试可能是什么。
速度-质量差距
直到现在,随着AI加速代码生成,这个问题才再次浮出水面。将代码部署到生产环境——而不是编写它——现在是瓶颈。
“你可以用AI加速代码编写,但你无法真正部署代码,直到你确定它运行良好,”Kohli 说。“当代码编写速度如此之快,并且代码质量实际上正在下降时,你不能使用旧技术,仅仅因为人工验证无法跟上。你需要重新构想测试。”
Code Labs 自己的研究显示,89% 的首席信息官认为测试编写速度是AI驱动的自动化覆盖交付中的主要瓶颈。对于复杂的用户旅程,自动化测试覆盖率很少超过35%,而团队花费40%的时间维护测试和脚本。

意图驱动测试
意图驱动测试旨在通过消除编写和维护脚本的大部分日常繁琐工作来改变这一点。在某种程度上,这与AI编码处理路由代码更改所做的工作非常相似。Kohli 认为,这是一种不同的测试思考方式。“你不会说,‘当有人点击 X 时,Y 应该发生,’’他说。“你会说,‘我正在构建一个电子商务应用。我想添加五件T恤,通过 PayPal 结账,然后运送到我加利福尼亚的家中。’这是一个快乐的路径。”
Sauce Labs 的服务接收该描述,并动态生成跨浏览器、操作系统和设备类型的测试套件。由于规范从未提及特定的框架或操作系统,因此生成的测试也不受其限制。
“我们消除了大部分繁重的工作,但我们不是试图夺走所有权。”
“我们消除了大部分繁重的工作,但我们不是试图夺走所有权,”Kohli 说。“你可能要花三天时间来写这个。现在三分钟就完成了,但这仍然是你的代码。”
Kohli 说,这种方法的论点是耐用性。当前端元素发生变化时,传统的测试脚本会迅速失效。Sauce Labs 认为,由意图定义的测试不带有这种依赖性。当新版本发布时,意图不会改变,因此工具可以重新生成测试。
这一点很重要,需要强调。测试本身仍然是代码编写的,并且可以像以前一样进行编辑和调整。

图片来源:Sauce Labs。
数据护城河
Sauce Labs 的竞争优势归结于数据:在其客户群中积累了87亿次测试运行。
“我们不是提供一个提示。我们提供 RAG 数据,”Kohli 说。“我们从历史中知道哪些是正确的测试位置。如果你正在编写一个电子商务应用,我们知道通常会在哪里出现问题。”
该公司声称,其根本原因分析速度比通用LLM快41%,并将其列为全球十大金融机构中80%的客户。Kohli 表示,在像制药这样受监管的行业中,一些公司必须保留30年的测试数据,通用编码工具缺乏合规知识。
Sauce 只是众多探索使用LLM自动化测试的公司之一。像 Applitools 和 Mabl 这样的公司多年来一直在构建AI辅助测试,而像 QA Wolf 和 Momentic 这样的新进入者也正在进入测试领域。
在某种程度上,更大的问题可能是测试编写是否会作为一个独立产品存在。如果编码工具(以及支持它们的LLM)不断改进,它们最终可能能够在其过程中构建和运行这些测试。
Kohli 的反驳是,通用模型可以生成测试代码,但不知道电子商务结账通常在哪里出现问题,或者制药公司的监管保留规则是什么样的。他说,这种知识是 Sauce Labs 的护城河。
Sauce AI 测试编写工具今天普遍可用,按开发者而非按令牌消耗定价。部分原因是 Kohli 认为基于消耗的定价在企业中行不通。毕竟,采购部门不喜欢批准最终成本未知的产品。