Prompt 迭代优化 4 步闭环法

AI测试工程师阿花

2026-04-03 5 阅读3分钟

一、核心目标

掌握从效果不稳定、存在 BadCase 的 Prompt，到稳定可用、可批量自动化评测的完整优化流程。完成：问题定位 → 根因分析 → 针对性优化 → A/B 验证 → 文档沉淀，形成工程化、可复用的优化方法论，体现传统测试工程师在 AI 评测领域的专业优势。

二、核心知识点总结

1. 优化本质（测试工程师视角）

Prompt 迭代优化 ≡ 软件测试缺陷管理全流程：缺陷复现 → 根因定位 → 方案优化 → 回归测试 → 文档归档核心解决：Prompt 时好时坏、边界场景误判、多规则漏检、输出格式不稳定、泛化能力差等工程问题。

2. 4 步迭代闭环（标准工程化流程）

第 1 步：问题定位与根因分析

针对可稳定复现的 BadCase，从四大模块判断问题来源：

规则层：规则描述模糊、边界不清晰、无刚性判定标准
示例层：Few-shot 未覆盖当前场景，或示例逻辑与规则不一致
CoT 层：未强制分步校验，模型跳步判断，导致关键规则漏检
格式层：输出约束弱，示例格式与最终要求格式不统一

第 2 步：针对性优化（固定优先级）

规则优化：将模糊描述改为可量化、无歧义、非黑即白的刚性条款
示例优化：补充对应场景的 Few-shot，坚持「单示例单测点」
CoT 优化：固定校验顺序，强制逐条校验，禁止跳步
格式优化：统一示例与输出结构，支持脚本批量解析

第 3 步：A/B 对照回归验证

使用固定用例集做量化对比验证：

原 BadCase 用例：验证问题是否彻底修复
历史正常用例：验证未引入回归问题（没把对的改错）
同类边界用例：验证优化后泛化能力输出指标：准确率、误判率、漏检率变化。

第 4 步：终版锁定与文档沉淀

归档内容：

优化前 Prompt 版本
问题现象与根因分析
具体优化点与修改思路
优化前后效果对比
终版 Prompt

三、典型问题判断逻辑

以 “用户询问手机选购等超范围问题，偶尔被误判为合规” 为例：

1）问题现象

模型对 “手机怎么选” 这类明显超服务范围的问题，态度礼貌、无编造信息，因此偶尔跳过范围检查，直接判定为合规。

2）根因判断

规则层：服务范围的禁止边界未写死，模型理解存在弹性空间
示例层：缺少「仅超范围、无其他违规」的纯净示例
CoT 层：未强制第一步校验服务范围，允许模型跳步判断

3）优化逻辑

明确规则：非订单 / 物流 / 退款类问题一律判定超范围
补充示例：增加纯超范围场景的标准示例
强化 CoT：固定校验顺序为「范围 → 态度 → 真实性」，第一步不合格直接整体不通过

4）验证逻辑

使用 “手机推荐、衣服推荐、闲聊” 等同类用例测试，确保 100% 识别超范围，且不影响正常订单 / 物流 / 退款问题的判定。