第12期 · AI + 测试/研发场景:系列收官,全景实践
系列:每日 AI 知识点
期数:第 12 期(收官)
主题:AI + 测试/研发场景
难度:⭐⭐⭐⭐(高级)
一句话:把前 11 期的所有知识点串联起来,展示 AI 在测试和研发工作中的完整应用场景。AI 不是替代测试工程师,而是让测试工程师的价值倍增。
一、AI + 测试的 5 大应用场景全景
经过 11 期的学习,我们已经掌握了 LLM、Prompt、幻觉、Embedding、RAG、知识库、Agent、MCP、Skills、Rules、工程化等核心知识。本期我们把这些知识点串联起来,看看它们如何在实际的测试和研发工作中发挥价值。
二、场景一:智能测试用例生成
痛点
传统的测试用例编写:
- 需要人工阅读几十页的需求文档
- 靠经验和直觉想出测试场景,容易遗漏
- 格式不统一,质量参差不齐
- 每次需求变更都要重新梳理
AI 解决方案
用到的技术:LLM + Prompt 工程 + RAG(历史 Bug 知识库)
完整工作流:
输入:
① 需求文档(功能描述、接口定义)
② 历史 Bug 库(RAG 检索相关历史缺陷)
③ 测试规范(Few-shot 示例)
↓ AI 处理 ↓
输出:
① 正常流程用例(Happy Path)
② 异常场景用例(Exception Path)
③ 边界条件用例(Boundary Test)
④ 性能测试用例(Performance Test)
⑤ 安全测试用例(Security Test)
实战 Prompt 模板:
角色:你是一位有 5 年刷掌终端测试经验的高级测试工程师,
熟悉公司的测试规范和历史缺陷模式。
任务:为以下功能生成完整的测试用例集
功能描述:
[粘贴需求文档]
历史相关 Bug(RAG 检索结果):
[自动插入相关历史 Bug]
要求:
1. 使用以下格式(Markdown 表格):
| 用例编号 | 用例名称 | 前置条件 | 操作步骤 | 预期结果 | 优先级 |
2. 必须覆盖:
- 正常流程(至少 3 个 P0 用例)
- 网络异常场景(断网、超时、弱网)
- 数据边界(空值、最大值、特殊字符)
- 并发场景(多设备同时操作)
- 历史 Bug 的回归验证
3. 对每个 P0 用例,额外说明:
- 为什么是 P0(影响范围)
- 对应的历史 Bug(如果有)
实测效果:
- 用例生成时间:从 4 小时 → 30 分钟
- 用例数量:平均增加 35%
- 覆盖度:历史 Bug 回归覆盖率从 60% → 95%
三、场景二:自动化代码生成
测试脚本自动生成
用到的技术:LLM + Prompt 工程 + 代码执行工具
# 输入:手工测试步骤(自然语言)
manual_steps = """
1. 打开刷掌支付应用
2. 进入支付页面,输入金额 100 元
3. 将手掌放置在识别区域
4. 等待识别完成(最多 5 秒)
5. 确认支付金额
6. 验证支付成功,检查订单状态为"已完成"
"""
# AI 生成自动化测试代码
prompt = f"""
将以下手工测试步骤转换为 Appium 自动化测试代码(Android):
{manual_steps}
要求:
1. 使用 Python + Appium
2. 添加适当的等待和断言
3. 处理可能的异常情况
4. 添加详细的注释
"""
# AI 输出
generated_code = """
import pytest
from appium import webdriver
from appium.webdriver.common.appiumby import AppiumBy
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
class TestPalmPayment:
def test_normal_payment(self, driver):
'''测试正常刷掌支付流程'''
# 等待支付页面加载
wait = WebDriverWait(driver, 10)
# 输入金额
amount_input = wait.until(
EC.presence_of_element_located((AppiumBy.ID, "payment_amount"))
)
amount_input.clear()
amount_input.send_keys("100")
# 触发掌纹识别
palm_area = driver.find_element(AppiumBy.ID, "palm_recognition_area")
palm_area.click()
# 等待识别完成(最多5秒)
result = wait.until(
EC.presence_of_element_located((AppiumBy.ID, "recognition_result")),
timeout=5
)
# 确认支付
confirm_btn = driver.find_element(AppiumBy.ID, "confirm_payment")
confirm_btn.click()
# 验证支付成功
order_status = wait.until(
EC.text_to_be_present_in_element(
(AppiumBy.ID, "order_status"), "已完成"
)
)
assert order_status, "支付应该成功完成"
"""
四、场景三:智能告警分析与处理
痛点
每天面对数百条告警,大量时间花在:
- 判断告警的严重程度
- 分析告警的可能根因
- 查找历史相似案例
- 制定处理方案
AI 解决方案
用到的技术:LLM + RAG(历史告警知识库)+ Agent(自动处理)
# 告警智能处理 Agent 工作流
class AlarmHandlingAgent:
def __init__(self):
self.knowledge_base = RAGKnowledgeBase("历史告警+运维手册")
self.tools = [
query_device_status, # 查询设备状态
search_alarm_history, # 搜索历史告警
execute_restart, # 执行设备重启
send_notification # 发送通知
]
def handle_alarm(self, alarm: dict) -> dict:
# 步骤1:告警分级
severity = self.classify_severity(alarm)
# 步骤2:检索相似历史告警
similar_alarms = self.knowledge_base.search(
f"{alarm['error_code']} {alarm['device_type']}",
top_k=5
)
# 步骤3:AI 分析根因
analysis = self.llm.analyze(
alarm=alarm,
similar_cases=similar_alarms,
device_status=query_device_status(alarm['device_sn'])
)
# 步骤4:自动处理(低风险操作)
if analysis.confidence > 0.9 and analysis.action in SAFE_ACTIONS:
result = self.auto_handle(analysis.action, alarm['device_sn'])
else:
# 高风险操作,发送给人工处理
send_notification(
channel="告警处理群",
content=f"需要人工处理:{analysis.summary}"
)
return analysis
真实效果案例:
告警:ERR_PALM_TIMEOUT_003 - 设备 SN:A123456 网络超时
Agent 处理过程:
1. 分级:P2(单台设备,有降级方案)
2. 检索:找到 15 条类似历史告警,根因分布:
- 网络抖动(67%)
- DNS 解析失败(20%)
- 服务端超时(13%)
3. 查询设备状态:网络延迟 850ms(正常 <100ms)
4. 分析结论:99% 可能是网络抖动,建议等待 5 分钟自动恢复
5. 自动处理:等待 5 分钟后检查,已自动恢复
6. 关闭告警,记录处理过程
处理时间:2 分钟(原来人工处理:20-30 分钟)
五、场景四:代码质量智能审查
AI 代码 Review 工作流
用到的技术:LLM + Prompt 工程 + 工蜂 MCP(代码获取)
# 代码审查 Agent
def ai_code_review(pr_id: str) -> ReviewResult:
# 1. 通过 MCP 获取 PR 变更
diff = gongfeng_mcp.get_pr_diff(pr_id)
# 2. AI 审查
review_prompt = f"""
你是一位有 10 年经验的 Android/C++ 工程师,
专注于 IoT 设备的安全性和性能。
请审查以下代码变更:
{diff}
审查维度:
1. 安全性(SQL 注入、XSS、越权访问等)
2. 性能(内存泄漏、死锁、N+1 查询等)
3. 代码质量(可读性、可维护性、测试覆盖)
4. 业务逻辑(是否符合需求,边界处理是否完整)
输出格式:
### 总体评价(LGTM / 需要修改 / 阻塞合并)
### 发现的问题
| 严重程度 | 文件 | 行号 | 问题描述 | 修改建议 |
### 优点(值得学习的地方)
"""
return llm.review(review_prompt)
实测效果:
- 代码审查时间:从 2 小时 → 20 分钟(AI 初审 + 人工复核)
- 发现的安全问题:提升 40%(AI 不会因为赶时间而漏看)
- 新人代码质量:提升明显(AI 给出详细的改进建议)
六、场景五:测试报告自动生成
传统方式的痛点
每周一早上 9 点需要提交测试周报:
- 从 TAPD 导出缺陷数据(15 分钟)
- 整理数据,制作表格(30 分钟)
- 写分析文字(20 分钟)
- 制作 PPT(30 分钟)
- 发送给相关人员(5 分钟)
总计:100 分钟/周
AI 自动化方案
用到的技术:Agent + TAPD MCP + Excel Skill + 邮件工具
# 测试周报自动生成 Agent
class WeeklyReportAgent:
def generate_report(self):
# 1. 从 TAPD 获取本周数据
bugs = tapd_mcp.query_bugs(
project="刷掌终端",
date_range="this_week"
)
test_cases = tapd_mcp.query_test_execution(
date_range="this_week"
)
# 2. 数据分析
analysis = python_executor.run("""
import pandas as pd
df_bugs = pd.DataFrame(bugs)
# 缺陷分布
severity_dist = df_bugs.groupby('severity').count()
# 缺陷趋势(与上周对比)
trend = calculate_trend(df_bugs)
# 主要问题分类
top_issues = df_bugs['type'].value_counts().head(5)
""")
# 3. AI 生成文字分析
narrative = llm.generate(f"""
基于以下测试数据,生成专业的测试周报分析:
本周缺陷数据:{analysis['severity_dist']}
缺陷趋势:{analysis['trend']}
主要问题:{analysis['top_issues']}
要求:
1. 客观描述数据
2. 分析主要问题的根因
3. 给出下周的改进建议
4. 语气专业,不超过 300 字
""")
# 4. 生成 Excel 报告
excel_skill.create_report(
data=analysis,
template="weekly_report_template.xlsx",
output="weekly_report_2024_W15.xlsx"
)
# 5. 发送邮件
email_tool.send(
to=["manager@company.com", "team@company.com"],
subject="测试周报 - 2024 W15",
body=narrative,
attachments=["weekly_report_2024_W15.xlsx"]
)
return "✅ 周报已生成并发送"
实测效果:
- 报告生成时间:100 分钟 → 5 分钟(自动执行)
- 报告质量:更一致,不会因为赶时间而遗漏数据
- 工程师可以把节省的时间用于更有价值的分析工作
七、AI 测试工程师的能力进化路线
阶段一:工具使用者(当下,1 年内)
核心能力:
- 掌握 Prompt 工程,能高效使用 AI 工具
- 用 AI 生成测试用例,提升效率 2-3 倍
- 用 AI 分析日志,缩短故障定位时间
- 构建个人的 AI 工具箱(常用 Prompt 模板)
学习路径:
第 1 个月:掌握 Prompt 工程(第 02 期)
第 2 个月:学会使用 RAG 知识库(第 05、06 期)
第 3 个月:掌握 Agent 基础(第 07 期)
第 4 个月:开始构建团队工具
阶段二:AI 协作者(1-2 年后)
核心能力:
- 设计复杂的 AI 工作流(Agent + 工具链)
- 为团队构建专属知识库
- 评估 AI 输出质量,能发现并修复 AI 的错误
- 将 AI 能力集成到 CI/CD 流水线
代表性工作:
✓ 构建团队的"刷掌测试知识库"(RAG)
✓ 实现告警自动分析和处理 Agent
✓ 建立 AI 辅助代码 Review 流程
✓ 设计测试报告自动生成工作流
阶段三:AI 架构师(3-5 年后)
核心能力:
- 设计 AI 驱动的测试平台架构
- 构建 Multi-Agent 测试系统
- 将 AI 能力深度融入 DevOps 流水线
- 评估和引入新的 AI 技术
代表性工作:
✓ 设计"AI 全自动测试平台"
✓ 构建"代码提交 → AI 测试 → 自动报告"的完整流水线
✓ 实现"基于 AI 的测试优先级智能调度"
✓ 建立团队 AI 能力成熟度评估体系
八、系列总结:12 期知识点的完整拼图
核心公式回顾
AI Agent = LLM(大脑)
+ Prompt(沟通方式)
+ RAG(外部知识)
+ Tools/MCP(执行能力)
+ Skills(专业能力)
+ Rules(行为规范)
+ Memory(记忆系统)
知识点关系图
┌─────────────────────────────────────────────────────────────────┐
│ AI Agent 系统 │
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────┐ │
│ │ 认知基础 │ │ 记忆系统 │ │ 执行能力 │ │
│ │ │ │ │ │ │ │
│ │ 01 LLM │ │ 04 Embedding│ │ 07 Agent │ │
│ │ 02 Prompt │ │ 05 RAG │ │ 08 MCP │ │
│ │ 03 幻觉 │ │ 06 知识库 │ │ 09 Skills │ │
│ └─────────────┘ └─────────────┘ │ 10 Rules │ │
│ └─────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 工程化与应用(11、12 期) │ │
│ │ 技术栈选型 → 原型验证 → 数据准备 → 工程化 → 监控优化 │ │
│ └─────────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
各期知识点的实际价值
| 期数 | 主题 | 核心价值 | 实际应用 |
|---|---|---|---|
| 01 | LLM | 理解 AI 的本质和局限 | 合理设置期望,避免过度依赖 |
| 02 | Prompt | 提升 AI 使用效率 3-5 倍 | 日常工作效率提升 |
| 03 | 幻觉 | 安全使用 AI | 避免因 AI 错误导致生产事故 |
| 04 | Embedding | 理解语义搜索原理 | 构建知识库的基础 |
| 05 | RAG | 让 AI 基于私有文档回答 | 团队知识库核心技术 |
| 06 | 知识库 | 企业知识沉淀和复用 | 减少重复查找,提升团队效率 |
| 07 | Agent | 让 AI 自主完成复杂任务 | 自动化工作流的核心 |
| 08 | MCP | 标准化工具集成 | 快速扩展 AI 能力 |
| 09 | Skills | 专业能力封装复用 | 团队 AI 能力标准化 |
| 10 | Rules | 让 AI 行为可预测可控 | 企业 AI 合规使用 |
| 11 | 工程化 | 从原型到生产 | 构建稳定的 AI 应用 |
| 12 | 应用实践 | 综合应用,创造价值 | 真正提升团队生产力 |
九、给测试工程师的行动建议
第一步:今天就能做的事(1 小时)
1. 安装 Claude Desktop 或使用 Knot
2. 用 Prompt 工程重写一个你常用的 AI 指令
3. 测试一下:「帮我分析这个告警」vs 「按照以下格式分析告警...」
4. 感受一下 Prompt 工程的价值
第二步:本周可以完成的事(5 小时)
1. 为你最常做的 3 件事创建 Prompt 模板
- 测试用例生成模板
- 告警分析模板
- Bug 报告生成模板
2. 建立个人的 Prompt 库(一个 Markdown 文件)
3. 分享给团队,收集反馈
第三步:本月可以完成的事(20 小时)
1. 为团队构建一个小型知识库(RAG)
- 收集 50-100 个常见问题和答案
- 用 Knot 或 LlamaIndex 搭建
- 测试效果,迭代优化
2. 自动化一个重复性工作
- 测试报告生成
- 告警日报整理
- 缺陷周报汇总
十、系列收官一句话
AI 不会取代测试工程师,但会使用 AI 的测试工程师会取代不会使用 AI 的测试工程师。12 期知识点的本质是一件事:让 AI 成为你的超级助手,而不只是一个聊天工具。
完整系列回顾
| 期数 | 日期 | 主题 | 核心关键词 |
|---|---|---|---|
| 01 | 2026-03-28 | LLM 大语言模型 | 预测下一个词、参数量、幻觉 |
| 02 | 2026-03-29 | Prompt 提示词工程 | 五要素、思维链、迭代优化 |
| 03 | 2026-03-30 | AI 幻觉与可信度 | 事实捏造、可信度矩阵、交叉验证 |
| 04 | 2026-03-31 | Embedding 向量化 | 语义坐标、余弦相似度、语义搜索 |
| 05 | 2026-04-01 | RAG 检索增强生成 | 开卷考试、文档入库、在线问答 |
| 06 | 2026-04-02 | 知识库工程实践 | 切分策略、混合检索、质量评估 |
| 07 | 2026-04-03 | Agent 智能体 | ReAct 循环、工具调用、自主规划 |
| 08 | 2026-04-04 | MCP 协议 | USB 标准、Host/Client/Server、工具生态 |
| 09 | 2026-04-05 | Skills 技能体系 | 专业封装、描述/指令/工具、生态 |
| 10 | 2026-04-06 | Rules 行为规范 | 行为宪法、四大类型、System Prompt |
| 11 | 2026-04-07 | AI 工程化实践 | 技术栈、生命周期、监控优化 |
| 12 | 2026-04-08 | AI + 测试/研发 | 用例生成、告警处理、能力进化 |
感谢你跟随这个系列走完了 12 期!AI 技术在快速发展,但核心原理和工程思维是长期有效的。希望这个系列能帮助你在 AI 时代找到自己的位置,创造更大的价值。