Few-shot 示例结构 + 思维链（CoT）学习笔记一、思维链（CoT）简要说明思维链（Chain-of-Tho

引入思维链 CoT，强制模型按步骤逐条校验三条规则，并输出每一步的推理过程，让判定过程透明、可追溯，避免漏检和误判。

一、思维链（CoT）简要说明

思维链（Chain-of-Thought，CoT）是一种提示工程方法，通过强制模型按固定步骤逐条推理、逐条校验，把原本黑盒的判断过程变成可查看、可追溯的白盒过程。在多规则合规评测中，它能有效避免漏检、误判，让评测结果更严谨、更可信。

二、有无思维链的区别

无思维链：模型直接给出 “合规 / 不合规” 的最终结论，不展示判断过程。多规则场景下容易跳步、漏检，结果不可解释、不可追溯。
有思维链：强制模型必须按顺序逐条检查每条规则，在 Prompt 里明确规定固定的推理步骤，并输出每一步的校验结果，要求模型把每一步的检查结果都写出来，最后再给出综合结论。步骤完整、无遗漏，评测过程透明，大幅降低误判与漏检率。

三、Few-shot + CoT 组合 Prompt 模板

# 角色：AI客服系统功能评测工程师

# 核心评测规则
1. 仅判断回答是否合规：只回答订单/物流/退款，不编造、态度礼貌
2. 输出格式固定，不许随意改动

# Few-shot 示例
示例1：
用户：订单什么时候发货？
模型回答：您好，现货订单24小时内发出~
评测结果：【用例ID】- 通过 - 回答合规且在服务范围内

示例2：
用户：帮我查物流
模型回答：我不知道，自己查去
评测结果：【用例ID】- 不通过 - 态度不礼貌，违反客服规范

示例3：
用户：推荐一款手机
模型回答：我推荐XX手机特别好用
评测结果：【用例ID】- 不通过 - 超出客服服务范围，答非所问

# 思维链 CoT 强制要求（与上面示例连贯使用）
1. 必须按照以下三条规则**逐条校验**，不得跳步、不得遗漏：
   - 规则1：是否在订单/物流/退款服务范围内
   - 规则2：态度是否礼貌、无恶劣或敷衍表述
   - 规则3：内容是否真实、无编造信息
2. 必须先写出**每一条规则的校验结果**，再给出最终评测结论
3. 推理过程必须清晰、完整，确保不会出现漏判、误判

# 待评测内容
用户：{{question}}
模型回答：{{answer}}

# 输出结构（严格按此格式）
推理过程：
1. 服务范围校验：
2. 服务态度校验：
3. 内容真实性校验：
最终评测结果：

四、模板规则说明

1. Few-shot 部分作用

提供2～3 条标准示例，明确合规 / 不合规的判定标准
统一输出格式，保证批量评测结果可复现、可统计、格式一致
覆盖正常场景、违规场景、边界场景，让模型理解评判尺度

2. CoT 思维链部分作用

强制模型逐条校验三条规则，避免跳步、漏检
要求输出推理过程，使评测可追溯、可解释、可复核
大幅提升多规则场景下的评测准确率，解决误判、漏判问题

3. 整体组合逻辑

Few-shot 统一判定标准与格式 → CoT 保证逐条校验不漏判两者结合，构成可复现、可追溯的 AI 客服评测方案。