一、核心目标
掌握从效果不稳定、存在 BadCase 的 Prompt,到稳定可用、可批量自动化评测的完整优化流程。完成:问题定位 → 根因分析 → 针对性优化 → A/B 验证 → 文档沉淀,形成工程化、可复用的优化方法论,体现传统测试工程师在 AI 评测领域的专业优势。
二、核心知识点总结
1. 优化本质(测试工程师视角)
Prompt 迭代优化 ≡ 软件测试缺陷管理全流程:缺陷复现 → 根因定位 → 方案优化 → 回归测试 → 文档归档核心解决:Prompt 时好时坏、边界场景误判、多规则漏检、输出格式不稳定、泛化能力差等工程问题。
2. 4 步迭代闭环(标准工程化流程)
第 1 步:问题定位与根因分析
针对可稳定复现的 BadCase,从四大模块判断问题来源:
- 规则层:规则描述模糊、边界不清晰、无刚性判定标准
- 示例层:Few-shot 未覆盖当前场景,或示例逻辑与规则不一致
- CoT 层:未强制分步校验,模型跳步判断,导致关键规则漏检
- 格式层:输出约束弱,示例格式与最终要求格式不统一
第 2 步:针对性优化(固定优先级)
- 规则优化:将模糊描述改为可量化、无歧义、非黑即白的刚性条款
- 示例优化:补充对应场景的 Few-shot,坚持「单示例单测点」
- CoT 优化:固定校验顺序,强制逐条校验,禁止跳步
- 格式优化:统一示例与输出结构,支持脚本批量解析
第 3 步:A/B 对照回归验证
使用固定用例集做量化对比验证:
- 原 BadCase 用例:验证问题是否彻底修复
- 历史正常用例:验证未引入回归问题(没把对的改错)
- 同类边界用例:验证优化后泛化能力输出指标:准确率、误判率、漏检率变化。
第 4 步:终版锁定与文档沉淀
归档内容:
- 优化前 Prompt 版本
- 问题现象与根因分析
- 具体优化点与修改思路
- 优化前后效果对比
- 终版 Prompt
三、典型问题判断逻辑
以 “用户询问手机选购等超范围问题,偶尔被误判为合规” 为例:
1)问题现象
模型对 “手机怎么选” 这类明显超服务范围的问题,态度礼貌、无编造信息,因此偶尔跳过范围检查,直接判定为合规。
2)根因判断
- 规则层:服务范围的禁止边界未写死,模型理解存在弹性空间
- 示例层:缺少「仅超范围、无其他违规」的纯净示例
- CoT 层:未强制第一步校验服务范围,允许模型跳步判断
3)优化逻辑
- 明确规则:非订单 / 物流 / 退款类问题一律判定超范围
- 补充示例:增加纯超范围场景的标准示例
- 强化 CoT:固定校验顺序为「范围 → 态度 → 真实性」,第一步不合格直接整体不通过
4)验证逻辑
使用 “手机推荐、衣服推荐、闲聊” 等同类用例测试,确保 100% 识别超范围,且不影响正常订单 / 物流 / 退款问题的判定。