ai测试的准确率覆盖率稳定性

0 阅读4分钟

准确率

准确率=提示词的准确率=大模型的准确率上下文清晰度用户意图

通过优化上下文的清晰度和用户意图可以做到100%,如果一开始没有学习ai测试的方法,可能只有90%。通过系统性的学习ai测试规范,可以达到100%

大模型的准确率

大模型经过大数据的预训练,已经可以充分理解网页结构与网页的动作行为,70b以上的准确率已经实现了100%,7b的准确率基本也都在90%以上。这块由企业具体使用的大模型决定。

提高上下文清晰度的方法

被测系统的UI结构或者接口接口的清晰度,比如UI里研发一般都会有清晰的识别标记,比如id class text placeholder,周边文本标记,父子元素标记等等,默认准确度是很高的。但是会有个别情况需要注意

  • 标记随机
  • 缺少明确的标记
  • 存在相似标记

如果出现这类问题,要通过提示词增强

提高提示词的准确度

直接说明意图,或者明确说明步骤,比如如下2个方法都是可以跑通的。

  • 打开时钟app,添加东京时区
  • 打开com.android.clock,点击添加城市按钮,输入tokyo,点击输入框下面的候选框里的第一条。

当出现一些特殊情况的时候,可以追加更多提示引导大模型去判断。

  • 寻找有业务含义的标记或者属性,比如class placeholder中的不会随机乱写的内容
  • 通过父子元素、索引顺序进行综合判断。比如顶部栏里内的输入框、第二个搜索搜索框等等。

覆盖率

用例覆盖率=上下文的覆盖率*提示词

上下文的覆盖率

  • 产品文档的信息覆盖率,通常文档中的信息量相对粗略,还取决于图片的识别准确率,只有60%左右。
  • 产品原型的UI/接口覆盖率,如果可以提供产品原型或者真实的被测系统,覆盖率可以达到90%以上。

提示词

在足够的上下文覆盖率的情况,已经获得了被测系统足够的信息,提示词策略决定覆盖的深度的。

  • 全路径覆盖
  • 等价类边界值覆盖
  • 循环覆盖
  • 异常覆盖
  • 安全测试
  • ...

因为AI生成的用例会非常巨大,所以一般都会选择性的有所取舍。具体的百分比取决于提示词策略。

提示词优化建议方向

  • 测试策略:功能 性能 安全 。。。
  • 测试方法:等价类 边界值 路径覆盖 循环覆盖 代码覆盖度
  • 知识图谱:业务流程引导 购买+退款+再次购买+再次退款

通过优化提示词可以做到特定场景的100%覆盖。

稳定性

大模型的输出稳定性=提示词上下文大模型参数

大模型的参数设置为不随机即可,调整 temperature top-k top-p 以及可能的思维链生成策略,可以实现稳定不变。 提示词基本也是固定不变的。 上下文主要取决于网站是否在测试期间发生变化,比如随机内容、实时内容变化、异常路径。发生变化后,准确率依然在90%以上,通过优化提示词也可以达到100%。

推荐阅读

软件测试/测试开发丨常见面试题与流程篇(附答案)

软件测试/测试开发丨学习笔记之Allure2测试报告

软件测试/测试开发丨Pytest测试用例生命周期管理-Fixture

软件测试/测试开发丨Python学习笔记之基本数据类型与操作

软件测试/测试开发丨学习笔记之列表、元组、集合

软件测试/测试开发丨Python常用数据结构-学习笔记

软件测试/测试开发丨Python控制流-判断&循环

软件测试/测试开发丨Python学习笔记之内置库科学计算、日期与时间处理

软件测试/测试开发丨面试题之软素质与反问面试官篇(附答案)

软件测试/测试开发丨iOS 自动化测试踩坑(一): 技术方案、环境配置与落地实践