大模型进阶 Prompt 技术全解析:CoT、Self-Consistency 与 ToT 实战指南

21 阅读5分钟

大模型进阶 Prompt 技术全解析:CoT、Self-Consistency 与 ToT 实战指南

在大模型应用落地的过程中,Prompt Engineering 已经从“会提问”升级为“设计推理过程”。
本篇文章系统梳理三种核心推理增强技术:

  • 思维链(Chain of Thoughts, CoT)
  • 自洽性(Self-Consistency)
  • 思维树(Tree-of-Thought, ToT)

并结合“客服质检”和“运动推荐”两个真实业务场景,讲清楚它们背后的原理与工程实践方式。


一、思维链(Chain of Thoughts, CoT)

1. 什么是思维链?

思维链(CoT)是大模型在规模提升后“涌现”出来的一种能力。

它最早被偶然发现:
有人在提问时加入一句:

“Let’s think step by step.”

结果模型开始自动拆解问题、逐步推理,输出质量显著提升。


2. 思维链的原理

本质上,思维链并不是“让模型更聪明”,而是:

✅ 原理一:扩大有效上下文

让模型生成更多中间推理步骤,从而:

  • 增加相关信息
  • 构造更丰富的“上文”
  • 提高“下文”正确概率

✅ 原理二:增强复杂任务表现

对于:

  • 逻辑推理
  • 多步骤计算
  • 规则判断
  • 多条件约束任务

效果尤为明显。


3. 人类类比

人也是这样:

  • 多想一会
  • 写草稿
  • 列步骤
  • 验算

答案更可靠。

所以:不要把 AI 当搜索引擎,要把它当“会思考的推理系统”。


二、案例:客服质检任务

任务背景

在电信、金融等行业:

  • 客服合规质检是核心技术
  • 每个合规点称为一个“质检项”

我们选一个质检项:

产品信息准确性

规则如下:

当介绍套餐时,必须提及:

  • 产品名称
  • 月费价格
  • 月流量总量
  • (若有)适用条件

缺失或错误 → 不准确


1️⃣ 普通 Prompt(无 CoT)

模型直接输出结果,容易出现:

  • 判断不稳定
  • 忽略某个字段
  • 逻辑跳跃

2️⃣ 加入思维链

关键提示词:

请一步一步分析

效果:

模型会:

  1. 识别套餐名称
  2. 检查价格是否匹配
  3. 检查流量是否匹配
  4. 检查适用条件
  5. 再给出结论

工程启示

在规则判断类任务中,CoT 可以:

  • 显著提升稳定性
  • 降低漏判
  • 降低逻辑错误

三、自洽性(Self-Consistency)

1. 什么是自洽性?

自洽性是一种:

对抗模型“幻觉”的统计方法。

原理类似:

做数学题多验算几遍。


2. 方法

  • 同一个 Prompt
  • 运行多次(temperature > 0)
  • 对结果进行投票
  • 选择出现次数最多的结果

3. 为什么有效?

因为:

  • CoT 会产生不同推理路径
  • 每次采样路径不同
  • 错误路径往往是随机的
  • 正确路径更容易收敛

投票机制可以:

  • 消除偶然错误
  • 提升最终准确率

4. 在客服质检中的应用

你示例代码中:

for _ in range(5):
    response = get_completion(prompt)

就是典型自洽性实现。

可以进一步升级为:

results = []
for _ in range(10):
    results.append(get_completion(prompt))

final = majority_vote(results)

5. 适用场景

  • 法规判断
  • 金融风控
  • 结构化抽取
  • 多规则合规校验

尤其适合“错一次代价高”的场景。


四、思维树(Tree-of-Thought, ToT)

如果说:

  • CoT 是线性推理
  • Self-Consistency 是多次采样

那么:

ToT 是结构化搜索。


1. 什么是思维树?

核心思想:

  • 每一步生成多个候选分支
  • 形成树状结构
  • 对每个分支进行评分
  • 通过搜索算法选择最优路径

2. 本质:AI + 搜索算法

思维树的关键在于:

组件作用
LLM生成候选节点
评价器判断节点质量
搜索策略决定扩展顺序
剪枝机制降低计算成本

这本质是:

让大模型从“生成模型”升级为“推理搜索系统”。


五、业务案例:运动推荐系统

场景:

小明成绩:

  • 100m:10.5秒
  • 1500m:3分20秒
  • 铅球:12米

目标:

推荐适合的搏击运动,并说明依据。


1️⃣ 第一步:能力分析(第一层节点)

模型输出:

{
  "速度": 3,
  "耐力": 2,
  "力量": 2
}

2️⃣ 第二步:扩展候选运动(第二层节点)

例如:

  • 拳击
  • 泰拳
  • 跆拳道
  • 综合格斗
  • 柔道

3️⃣ 第三步:评估匹配度(第三层节点)

对每个运动:

  • 是否满足“速度 >= 要求”
  • 是否满足“力量 >= 要求”
  • 是否满足“耐力 >= 要求”

不满足 → 剪枝


4️⃣ 最终生成报告

仅对满足所有条件的运动生成推荐报告。


六、CoT vs Self-Consistency vs ToT

技术推理方式复杂度适用场景
CoT线性推理规则判断
Self-Consistency多次采样降幻觉
ToT树搜索复杂规划

七、工程实践建议

1️⃣ 规则判断类 → CoT + 自洽性

客服质检、合同审查、风控评分:

请一步一步分析
  • 多次采样投票

2️⃣ 推荐系统 → ToT

  • 需要解释
  • 需要多维匹配
  • 需要规划路径

适合用:

  • 深度优先
  • 宽度优先
  • 启发式搜索

3️⃣ 成本控制建议

ToT 计算量大:

  • 要做剪枝
  • 要缓存中间结果
  • 要控制温度

八、核心思想总结

真正的 Prompt Engineering 不是写提示词,而是:

设计推理结构。

从:

  • ❌ “帮我回答”
    到:
  • ✅ “帮我分步骤推理”
  • ✅ “帮我生成多个候选再评估”
  • ✅ “帮我搜索最优路径”

你在笔记中已经抓住了关键:

  • CoT → 扩展上下文
  • Self-Consistency → 多路径统计
  • ToT → 推理 + 搜索

这三者构成了:

现代大模型复杂推理系统的三大核心方法论。