本文包含:BadCase 定义与分类、Excel 可直接复制模板、自动化脚本、裁判模型Prompt
一、什么是 LLM BadCase
LLM BadCase 指用户发起请求后,模型输出结果不符合业务需求、功能预期、事实规范,或未遵守预设约束规则的异常案例。它是大模型质量评估、问题定位、迭代优化的核心依据,也是 RAG 类系统测试的重点工作。
二、LLM BadCase 常见分类及示例
1. RAG 检索错误
系统未召回相关知识库内容,召回不相关、不完整内容,导致回答偏离问题。示例:用户问加班餐补报销时间,系统召回办公用品采购规则。
2. 事实错误 / 幻觉
检索内容准确完整,但模型无视参考信息,自行编造、篡改规则与数据。示例:知识库写明年假最多分 3 次休,模型输出可分 5 次休。
3. 情绪识别错误
用户带有明显正向 / 负向情绪,模型识别错误,导致回复与情绪不匹配。示例:用户抱怨流程复杂,模型将负向情绪识别为中性。
4. 语气适配错误
模型正确识别情绪,但回复语气生硬、官方,不符合沟通场景。示例:识别用户不满后,仍使用冰冷制式话术。
5. 指令不遵循(Prompt 失效)
Prompt 明确约束行为规则,模型未按指令执行,自行输出违规内容。示例:要求禁止编造,模型仍在无检索结果时虚构规则。
6. 异常场景失效
对乱码、空输入、超长文本、恶意输入等异常场景未做合理处理。示例:用户输入!@#$%^&*(),模型编造考勤制度进行回复。
三、Excel BadCase 管理模板(可直接复制使用)
表 1:测试用例表 TestCases
| 用例 ID | 用户问题 | 预期输出 | 备注 |
|---|---|---|---|
| CASE001 | 年假最多可以分几次休? | 年假最多可分 3 次休 | 基础规则验证 |
| CASE002 | 报销流程太复杂,我完全看不懂 | 非常理解您的困扰,我为您简化说明 | 情绪测试 |
| CASE003 | !@#$%^&*() | 请输入有效的问题内容 | 异常输入 |
| CASE004 | 加班餐补的报销时间要求是什么? | 加班餐补需在 7 天内报销 | 检索相关性 |
| CASE005 | 新员工入职有年假吗 | 暂无相关内容,请咨询 HR | 无检索结果 |
表 2:分析结果表 AnalysisResults(脚本自动生成)
| 用例 ID | 用户问题 | 检索返回内容 | 模型实际输出 | 预期输出 | 脚本初步分类 | 专家模型分类 | 根因分析 | 优化建议 | 测试状态 |
|---|---|---|---|---|---|---|---|---|---|
| CASE001 | 年假最多可以分几次休? | 年假最多可分 3 次休 | 年假最多可分 5 次休 | 年假最多可分 3 次休 | 无 | 事实错误 / 幻觉 | 检索正确,模型篡改规则 | 强化 Prompt 禁止编造 | 已分析 |
| CASE002 | 报销流程太复杂,我完全看不懂 | 报销流程制度 | 1. 提交申请 2. 审核 | 理解困扰,简化说明 | 无 | 情绪识别错误 | 未识别负向情绪 | 优化情绪识别 | 已分析 |
| CASE003 | !@#$%^&*() | 无 | 考勤打卡规则 | 请输入有效问题 | 异常场景失效 | 异常场景失效 | 未处理乱码 | 增加输入校验 | 已分析 |
| CASE004 | 加班餐补报销时间 | 办公用品采购规则 | 采购需经理审批 | 7 天内报销 | RAG 检索错误 | RAG 检索错误 | 检索不相关 | 优化检索策略 | 已分析 |
| CASE005 | 新员工有年假吗 | 无 | 满 1 个月有年假 | 暂无相关内容 | 指令不遵循 | 指令不遵循 | 无结果仍编造 | 明确 Prompt 统一回复 | 已分析 |
四、裁判模型 Prompt
你是专业的LLM系统BadCase分类专家。请根据用户问题、检索内容、模型输出,严格按以下分类给出唯一结果,只输出分类名称,不附加任何解释。
分类标准:
1. RAG检索错误:检索内容不相关、不完整、未召回有效信息
2. 事实错误/幻觉:检索内容正确,模型编造、篡改信息
3. 情绪识别错误:未正确识别用户正向/负向情绪
4. 语气适配错误:识别情绪正确,但语气不符合场景
5. 指令不遵循:未遵守Prompt约束,违规输出
6. 异常场景失效:对乱码、空值等异常输入处理失效
用户问题:{user_query}
检索内容:{retrieval_content}
模型输出:{model_output}
五、自动化分析 Python 脚本
六、标准执行流程
- 写用例:在Excel的TestCases表里填「问题 + 预期答案」
- 跑脚本:脚本自动调用业务接口,拿到模型真实返回结果
- 自动分类:简单问题脚本规则判,复杂问题裁判模型判
- 自动填表:根因、建议、分类全部自动写入 Excel
- 人工复核:最后人工审核模糊案例