一、Few-shot 是什么(一句话看懂)
在 Prompt 里加入 2~6 条标准示例,告诉模型按什么标准判断、按什么格式输出,用于解决:
- 只给规则时输出格式混乱
- 判定标准不统一、结果不可复现
- 批量评测无法统计、无法对比
- 多轮对话模型忘记规则、跑偏
二、什么时候必须用
- AI 客服 / 对话模型批量评测
- 大模型幻觉与事实一致性检测
- 批量生成标准化测试用例
- 多轮对话防止指令稀释、角色遗忘
三、实战设计原则
- 先定规则:明确合规 / 违规、输出格式
- 示例覆盖:正常通过 + 违规不通过 + 边界异常
- 数量:2~6 条最佳,不堆砌
- 格式:示例与最终输出完全一致
- 位置:示例放在规则后、任务前,多轮对话后置强化
四、Prompt 模板
标准化测试用例批量生成模板
# 角色:电商AI客服测试用例设计工程师
# 规则
1. 覆盖:订单、物流、退款三大场景
2. 字段固定:用例ID、优先级、测试场景、用户问题、预期标准
3. 优先级:核心业务高,边界中,异常/无关低
4. 输出:统一Markdown表格
# Few-shot示例
| 用例ID | 优先级 | 测试场景 | 用户问题 | 预期应答标准 |
|--------|--------|----------|----------|--------------|
| KF-001 | 高 | 订单查询-正常 | 我的订单什么时候发货? | 告知24小时内发货,可协助查询 |
| KF-002 | 中 | 退款查询-边界 | 退款迟迟没到账怎么办? | 告知1-3个工作日到账并可协助查询 |
| KF-003 | 低 | 无关问题-异常 | 推荐一款手机 | 拒绝并说明仅处理订单物流退款 |
# 任务
按以上规则与格式,生成20条标准化AI客服测试用例
五、项目落地常见避坑
- 示例不是越多越好,2~6 条覆盖场景即可
- 示例格式必须与最终输出完全一致
- 必须包含 “不通过 / 异常” 示例,否则判责不准
- 多轮对话把示例放末尾,防止被截断稀释
- Few-shot 是提示技巧,不是训练模型,不用大量样本