Prompt 迭代优化 4 步闭环法

5 阅读3分钟

一、核心目标

掌握从效果不稳定、存在 BadCase 的 Prompt,到稳定可用、可批量自动化评测的完整优化流程。完成:问题定位 → 根因分析 → 针对性优化 → A/B 验证 → 文档沉淀,形成工程化、可复用的优化方法论,体现传统测试工程师在 AI 评测领域的专业优势。

二、核心知识点总结

1. 优化本质(测试工程师视角)

Prompt 迭代优化 ≡ 软件测试缺陷管理全流程:缺陷复现 → 根因定位 → 方案优化 → 回归测试 → 文档归档核心解决:Prompt 时好时坏、边界场景误判、多规则漏检、输出格式不稳定、泛化能力差等工程问题。

2. 4 步迭代闭环(标准工程化流程)

第 1 步:问题定位与根因分析

针对可稳定复现的 BadCase,从四大模块判断问题来源:

  • 规则层:规则描述模糊、边界不清晰、无刚性判定标准
  • 示例层:Few-shot 未覆盖当前场景,或示例逻辑与规则不一致
  • CoT 层:未强制分步校验,模型跳步判断,导致关键规则漏检
  • 格式层:输出约束弱,示例格式与最终要求格式不统一

第 2 步:针对性优化(固定优先级)

  1. 规则优化:将模糊描述改为可量化、无歧义、非黑即白的刚性条款
  2. 示例优化:补充对应场景的 Few-shot,坚持「单示例单测点」
  3. CoT 优化:固定校验顺序,强制逐条校验,禁止跳步
  4. 格式优化:统一示例与输出结构,支持脚本批量解析

第 3 步:A/B 对照回归验证

使用固定用例集做量化对比验证:

  • 原 BadCase 用例:验证问题是否彻底修复
  • 历史正常用例:验证未引入回归问题(没把对的改错)
  • 同类边界用例:验证优化后泛化能力输出指标:准确率、误判率、漏检率变化。

第 4 步:终版锁定与文档沉淀

归档内容:

  • 优化前 Prompt 版本
  • 问题现象与根因分析
  • 具体优化点与修改思路
  • 优化前后效果对比
  • 终版 Prompt

三、典型问题判断逻辑

以 “用户询问手机选购等超范围问题,偶尔被误判为合规” 为例:

1)问题现象

模型对 “手机怎么选” 这类明显超服务范围的问题,态度礼貌、无编造信息,因此偶尔跳过范围检查,直接判定为合规。

2)根因判断

  • 规则层:服务范围的禁止边界未写死,模型理解存在弹性空间
  • 示例层:缺少「仅超范围、无其他违规」的纯净示例
  • CoT 层:未强制第一步校验服务范围,允许模型跳步判断

3)优化逻辑

  • 明确规则:非订单 / 物流 / 退款类问题一律判定超范围
  • 补充示例:增加纯超范围场景的标准示例
  • 强化 CoT:固定校验顺序为「范围 → 态度 → 真实性」,第一步不合格直接整体不通过

4)验证逻辑

使用 “手机推荐、衣服推荐、闲聊” 等同类用例测试,确保 100% 识别超范围,且不影响正常订单 / 物流 / 退款问题的判定。