引入思维链 CoT,强制模型按步骤逐条校验三条规则,并输出每一步的推理过程,让判定过程透明、可追溯,避免漏检和误判。
一、思维链(CoT)简要说明
思维链(Chain-of-Thought,CoT)是一种提示工程方法,通过强制模型按固定步骤逐条推理、逐条校验,把原本黑盒的判断过程变成可查看、可追溯的白盒过程。在多规则合规评测中,它能有效避免漏检、误判,让评测结果更严谨、更可信。
二、有无思维链的区别
- 无思维链:模型直接给出 “合规 / 不合规” 的最终结论,不展示判断过程。多规则场景下容易跳步、漏检,结果不可解释、不可追溯。
- 有思维链:强制模型必须按顺序逐条检查 每条规则,在 Prompt 里明确规定固定的推理步骤,并输出每一步的校验结果,要求模型把每一步的检查结果都写出来,最后再给出综合结论。步骤完整、无遗漏,评测过程透明,大幅降低误判与漏检率。
三、Few-shot + CoT 组合 Prompt 模板
# 角色:AI客服系统功能评测工程师
# 核心评测规则
1. 仅判断回答是否合规:只回答订单/物流/退款,不编造、态度礼貌
2. 输出格式固定,不许随意改动
# Few-shot 示例
示例1:
用户:订单什么时候发货?
模型回答:您好,现货订单24小时内发出~
评测结果:【用例ID】- 通过 - 回答合规且在服务范围内
示例2:
用户:帮我查物流
模型回答:我不知道,自己查去
评测结果:【用例ID】- 不通过 - 态度不礼貌,违反客服规范
示例3:
用户:推荐一款手机
模型回答:我推荐XX手机特别好用
评测结果:【用例ID】- 不通过 - 超出客服服务范围,答非所问
# 思维链 CoT 强制要求(与上面示例连贯使用)
1. 必须按照以下三条规则**逐条校验**,不得跳步、不得遗漏:
- 规则1:是否在订单/物流/退款服务范围内
- 规则2:态度是否礼貌、无恶劣或敷衍表述
- 规则3:内容是否真实、无编造信息
2. 必须先写出**每一条规则的校验结果**,再给出最终评测结论
3. 推理过程必须清晰、完整,确保不会出现漏判、误判
# 待评测内容
用户:{{question}}
模型回答:{{answer}}
# 输出结构(严格按此格式)
推理过程:
1. 服务范围校验:
2. 服务态度校验:
3. 内容真实性校验:
最终评测结果:
四、模板规则说明
1. Few-shot 部分作用
- 提供2~3 条标准示例,明确合规 / 不合规的判定标准
- 统一输出格式,保证批量评测结果可复现、可统计、格式一致
- 覆盖正常场景、违规场景、边界场景,让模型理解评判尺度
2. CoT 思维链部分作用
- 强制模型逐条校验三条规则,避免跳步、漏检
- 要求输出推理过程,使评测可追溯、可解释、可复核
- 大幅提升多规则场景下的评测准确率,解决误判、漏判问题
3. 整体组合逻辑
Few-shot 统一判定标准与格式 → CoT 保证逐条校验不漏判两者结合,构成可复现、可追溯的 AI 客服评测方案。