你一定遇到过这种情况——
某天,产品经理甩来一份30页的PRD文档,丢下一句:“需求紧急,3天内写完所有测试用例。”
不少测试同学会用AI辅助编写,但依旧绕不开大量琐碎操作:反复调整提示词、等待AI生成、复制粘贴内容到Excel,再逐行修正逻辑、统一格式。
看似提高了些许效率,却依旧被重复劳动束缚,生成内容也无法沉淀、复用。
那么,有没有一种方案:让AI自主理解业务需求、自动调用工具、串联全流程,直接输出可落地的交付物?
答案,就是Agent+Skill
01 先搞懂两个概念
Agent:不是聊天机器人,是"自主干活的人"
很多人以为 Agent 就是会聊天的 AI 助手——你问一句,它答一句。
不对。
Agent(智能体)的本质是:它能自主拆解任务、制定计划、调用工具、执行操作,最后交付结果。
举个例子:
你对 Agent 说:"帮我测一下登录功能"
普通AI的回答:给你一段测试思路的文字
Agent的做法:
- 分析需求:需要覆盖哪些场景?
- 制定计划:正常流程 + 异常场景 + 安全测试
- 调用工具:读取PRD文档、查看历史bug库
- 执行操作:自动生成用例、甚至直接跑自动化脚本
- 交付结果:输出完整的测试报告
区别在于:普通 AI 只能"回答问题",Agent 能够"完成任务"。
Skill:封装专业能力的"技能包"
Skill = 把某个专业领域的能力,封装成可复用的"技能包",Agent 可以直接调用。
比如你可以创建这些 Skill:
- 测试用例生成器:输入 PRD,输出结构化测试用例
- Bug 分析助手:输入日志/报错信息,输出根因分析
- 测试报告生成器:输入测试数据,输出可视化报告
- 接口文档校验器:输入 Swagger 文档,检查潜在问题
关键点:Skill 创建一次,可以反复使用。 不需要每次都重新写提示词。
更重要的是:Skill可以直接调用脚本。一个测试用例生成器的Skill,底层可能就是一段Python脚本,封装了读取PRD、调用AI生成、整理输出格式的完整流程。
02 两个东西怎么配合?
用一个类比来理解:
| 角色 | 类比 | 职责 |
|---|---|---|
| Agent | 项目经理 | 决策、规划、分配任务 |
| Skill | 专业员工 | 具备特定专业能力,执行具体工作 |
工作流程:
这就是 Agent + Skill 的威力:不是单个工具变强了,而是它们组合在一起形成了一个完整的测试工作流。
03 对比一下:新旧方式的差距
为了让你更直观地感受差异,我把两种方式放在一起对比:
| 维度 | 旧方式(纯提示词) | 新方式(Agent + Skill) |
|---|---|---|
| 输入 | 手动粘贴 PRD | Agent 自动读取本地文档 |
| 上下文 | 每次手动补充 | Skill 内置上下文 |
| 专业性 | 靠提示词技巧 | 由封装好的 Skill 保证质量 |
| 可复用性 | 下次还要重新来 | Skill 可跨项目反复调用 |
| 执行深度 | 只能生成文字 | Agent 可驱动完整工作流 |
| 出错率 | 提示词稍错就跑偏 | Skill 内置质量约束 |
举个真实例子:
旧方式(耗时约 45 分钟):
- 打开 Jira,复制需求描述(5分钟)
- 打开 AI 工具,粘贴需求(2分钟)
- 编写/调整提示词(10分钟)
- 等待生成结果(3分钟)
- 复制结果到 Excel(5分钟)
- 手动调整格式(15分钟)
- 补充遗漏的场景(5分钟)
新方式(耗时约 8 分钟):
- 对 Agent 说:"帮我看一下 PROJ-1234 文档的测试方案"
- Agent 调用「测试用例生成」Skill,自动读取本地PRD文档
- Skill 内部调用Python脚本整理格式
- 输出完整的测试方案(含用例、风险点、建议优先级)
效率提升约 5 倍。 而且越复杂的项目,差距越大。
04 Skill和预览效果
这里给出「测试用例生成器」的SKILL.md完整文档,以及对应的生成结果预览,大家可拿来直接使用。
SKILL.md内容(可直接复制)
---
name: testcase-generator
description: >
测试用例生成器 - 根据PRD文档自动生成功能测试用例。
**核心能力**:支持PRD输入(Word/Markdown/PDF)、只输出markdown格式、多类型覆盖(功能/边界/异常)、智能用例筛选(正向/反向)
**触发词**:
- 生成类:"生成测试用例"、"创建用例"、"输出测试用例"
- 筛选类:"只要正向"、"不要异常"、"只要功能测试"
---
# 测试用例生成器
## 快速参考
### 输出格式
只输出 markdown 格式。
### 用例类型筛选
| 筛选词 | 效果 |
|-------|------|
| "只要正向"、"正向用例" | 只生成正向测试用例 |
| "不要异常"、"不要反向" | 排除异常/反向用例 |
| "只要功能" | 只生成功能测试用例 |
### 输入类型识别
| 类型 | 支持格式 |
|------|---------|
| PRD文档 | .docx, .md, .txt, .pdf |
| 设计图 | .png, .jpg (需配合文字描述) |
| 在线文档 | 任意可访问的URL |
---
## 核心功能
### 1. 智能输入解析
自动识别输入文档类型,提取功能需求。
### 2. 测试覆盖维度
| 类型 | 覆盖内容 |
|------|---------|
| 正向测试 | 核心业务流程验证 |
| 反向测试 | 异常输入、错误处理 |
| 边界值测试 | 输入边界、条件边界 |
| 等价类划分 | 测试数据合理分组 |
| 场景测试 | 跨模块业务流程、多模块联动场景 |
| 权限测试 | 未授权访问、越权操作、角色权限验证 |
| 网络异常测试 | 断网、超时、弱网环境处理 |
| 并发测试 | 重复提交、并发抢购、数据竞争 |
### 3. 字段规范
**标准字段**:
| 字段 | 必填 | 说明 |
|------|-----|------|
| 用例编号 | ✓ | TC_模块_序号,如 TC_LOGIN_001 |
| 所属模块 | ✓ | 用例所属模块 |
| 用例标题 | ✓ | 简洁描述测试点 |
| 用例类型 | ✓ | 功能测试/边界测试/异常测试 |
| 优先级 | ✓ | P0/P1/P2 |
| 前置条件 | ✓ | 执行前需满足的条件 |
| 测试步骤 | ✓ | 逐条操作描述 |
| 预期结果 | ✓ | 每步对应的预期行为 |
### 4. 优先级定义
| 优先级 | 占比 | 定义 |
|-------|------|------|
| P0 | 10-25% | 核心功能、主流程 |
| P1 | 30-60% | 重要功能、主流场景 |
| P2 | 10-25% | 边缘功能、特殊场景 |
---
## 工作流程
1. 解析输入文档 → 识别文档类型
2. 提取功能需求 → 识别字段和规则
3. 生成测试用例 → 应用测试设计方法论
4. **确保覆盖完整** → 正向+异常+边界+权限+网络+并发
5. 输出Markdown文件 → 直接生成markdown格式
生成效果预览
PRD 核心内容:
登录模块支持手机号/邮箱登录,密码长度6-18位,支持忘记密码功能;异常场景:手机号格式错误、密码为空、账号未注册、密码错误超过3次锁定账号
生成的测试用例预览如下:
由于篇幅问题,这里只截取了部分正向用例和异常用例。
写在最后
回过头来看,我觉得 2026 年对于测试人员来说,最重要的变化不是某个具体的 AI 工具出现了,而是我们对"AI 怎么用于测试"的认知升级了:
第一阶段(2023年): 把 AI 当搜索框,问问题、查资料 第二阶段(2024年): 把 AI 当写作助手,写用例、写文档 第三阶段(2025-2026年): 把 AI 当成团队成员,让它自主完成任务
Agent + Skill,正是第三阶段的核心组合。
就这么简单。两个概念,足够解决你90%的问题。
唯一的问题是:你是主动去掌握它,还是等被动淘汰之后再后悔?
如果这篇文章对你有帮助,记得点赞、转发让更多测试同学看到。
关注我,带你解锁更多AI测试技能。