上一篇我们回顾基座模型的‘诞生记’,这一篇我们将探讨“工程化”是如何赋予模型推理能力的。
第二阶段:推理能力 -- 用计算换智能(Inference Engineering)
解锁大模型的智慧:从思维链到思维树的推理工程化演进”。
上一篇我们回顾了基座模型的诞生。本篇将聚焦于如何通过巧妙的‘工程化’手段,无需重新训练模型,就能激发出其深藏的复杂推理能力,核心策略就是‘用计算换智能’。
CoT开山之作
论文:《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》 (2022)
提出了一种简单而高效的提示方法,称为思维链(Chain-of-Thought,CoT)提示。它能显著提高 LLM 在复杂推理任务上的表现。
核心思想:什么是思维链(CoT)?
传统的提示方法通常是给模型一个问题,并期望它直接给出答案。
而思维链(CoT)提示则是通过在提示中(在“上下文学习”或“少样本学习”中)给模型展示一些包含“推理步骤”的示例**。它不只是给出“问题”和“答案”,而是展示了从“问题”到“答案”的中间思考过程。
主要发现与贡献
-
显著提升复杂推理能力:
CoT在需要多步骤思考的任务上表现尤其出色,包括
- 算数推理:(例如应用题,如论文中使用的 GSM8K 数据集)
- 常识推理:(例如需要理解因果或逻辑关系的任务)
- 符号推理:(例如字母或符号的变换)
-
推理能力是“涌现”的(Emergent Property):
这是论文最重要的发现之一。CoT 的神奇效果只在足够大的模型(例如参数量 > 100B)上才会显现。对于较小的模型,对于 CoT 提示的效果并不好,甚至可能比标准提示更差。这表明复杂的推理能力是模型规模扩大到一定程度后“涌现”出来的特性。
-
提供了解释性和可调试性:
通过让模型输出其推理步骤,研究人员可以(在一定程度上)看到模型的思考过程。如果模型给出了错误的答案,人们可以检查它的思维链,定位到是哪一步推理出了错,这为调试和改进模型提供了可能。
-
方法简单通用:
CoT 不需要对模型进行额外的微调或修改模型结构。它只是一种巧妙的提示工程技巧,仅通过设计几个示例就能解锁模型已有的潜力。
Zero-Shot CoT
论文:《Language Models are Zero-Shot Reasoners》 (2022)
这篇论文在 AI 领域引起了巨大的轰动,因为它发现了一个极其简单却极其强大的“咒语” -- 只需要在提示词中加上一句“Let's think step by step(让我们一步步思考)”,就能解锁大模型的复杂逻辑推理能力。例如,使用大模型 InstructGPT 模型将 MultiArith 的准确性从 17.7% 提高到 78.7% ,将 GSM8K 的准确率从 10.4% 提高到 40.7% 。
-
核心思想:零样本学习(Zero-shot Learning) 在此之前,业界普遍认为,要让 LLM 处理复杂的数学或逻辑问题,必须使用“少样本思维链(Few-Shot CoT)”,即在提问时先给模型看几个“问题 + 详细推理过程 + 答案”的例子,让模型“照猫画虎”。
但这篇论文提出了 Zero-Shot CoT,其核心观点是:
大模型本身就通过预训练具备了内隐的推理能力,不需要外部示例(Zero-Shot),只需要特定的提示词去“唤醒”它。
核心机制
模型并非不会推理,而是平时习惯了“直觉式”回答。通过加上“Let's think step by step”,我们强制模型进入“分析式”模式,讲一个复杂问题拆解为多个中间步骤,从而大幅提高准确率。
2.带来的深远影响
这篇论文的影响力不仅在于技术本身,更在于它改变了人们对大模型的认知:
-
极大地降低了提示工程的门槛
- 以前:你需要为每个任务精心编写高质量的“思维链示例”,这很难且耗时。
- 现在:普通用户只需要加一句“请一步步思考”,就能获得专家级的推理效果。这一发现让大众用户也能轻松利用 LLM 解决复杂问题。
-
解释了模型的“涌现能力”
它证明了推理能力不是通过“微调”或“看例子”学来的,而是模型在海量数据预训练中已经内化的能力。这改变了研究界的方向:与其教模型怎么做,不如研究如何更好地引导出它已有的能力。
-
性能的巨大飞跃
在论文的测试中,仅凭这一句提示词,GPT-3 的准确率就从 17.7% 飙升到了 78.7% 。这种无需训练就能带来的巨大提升是前所未有的。
- 催生了后续的自动化技术
既然一句通用的话都能起效,呢么是否还有更好的提示词?这期发了后来的 Auto-CoT(自动生成思维链)和 Prompt Optimization 的研究,即让 AI 自己去寻找“更好的咒语”
总结
《Language Models are Zero-Shot Reasoners》的核心贡献在于打破了“模型需要教(示例)才能推理”的迷思。它告诉我们,大模型潜藏着巨大的智慧,有时候你只需要一把简单的钥匙 -- “Let's think step by step” -- 就能打开它。
提升稳定性:自洽性(The Stabilizer)
论文:《Self-Consistency Improves Chain of Thought Reasoning in Language Models》 (2022)
-
核心思想:
LLM 像人一样,有时候会“脑抽”算错。与其让模型只回答一次,不如让它回答十次,然后取出现次数最多的那个答案。
- 直觉:就像做数学题,如果你算三次得出的结果都是 42,那大概率都是对了。如果三次结果都不一样,那大概率错了。
-
自洽性利用了这样一个直觉:一个复杂的推理问题通常存在多种不同的思维方式,最终都能得出唯一的正确答案。我们广泛的实证评估表明,自洽性显著提高了思维链提示在各种流行的算术和常识推理基准测试中的性能,包括 GSM8K(+17.9%)、SVAMP(+11.0%)、AQuA(+12.2%)、StrategyQA(+6.4%)。
直觉与原理
为什么这样做有效?论文基于一个非常朴素但强大的直觉:
- 正确答案的“殊途同归”:复杂的推理问题(如数学题)通常有多种正确的解题思路,但它们都会指向同一个正确答案。
- 错误答案的“发散性”:如果模型推理错了,它出错的方式通常是随机的、发散的。很难有多条独立的推理路径同时“巧合”地得出同一个错误答案。
因此,如果我们让模型“多想几次”,正确答案往往会形成一个聚类(Cluster),而错误答案则会零散分布。通过边缘化推理路径(即忽略具体的推理路径,只看结果),我们可以显著提高鲁棒性。
主要影响与贡献
-
确立了“推理时计算换智能”的范式
这是最重要的影响之一。它证明了不需要重新训练模型,仅仅通过增加推理阶段的计算量,就能大幅提升模型的性能。
-
显著提升了数学和逻辑推理能力
在当时,Self-Consistency 在 GSM8K、Code Contest(代码生成)等基准测试上取得了 State-of-the-Art(SOTA)的成绩。它证明了模型有时并不是“不会做”,而是单次生成太容易“马虎”。
慢思考:思维树(The Planner)
论文:《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》 (2023)
它的核心在于将人类的 System 2 思维 -- 即慢速、深思熟虑、有计划的思考 -- 引入到 LLM 的生成过程中。ToT(Tree of Thoughts)显著提升了语言模型在三个需要复杂规划或探索的新任务(24 点游戏、创意写作和迷你填字游戏)上的问题解决能力。
ToT 的本质是将“问题解决”过程建模为在一棵思维树上的搜索过程。
一句话总结:ToT 让 LLM 能够像下棋一样,“走一步看三步”,在做决定前探索多种可能性,并能自我纠错。
核心思想:从“链”到“树”
为了理解 ToT,我们必须先看它要解决的问题:
- 思维链的局限性:CoT是一种“贪婪”的方法。它一步一步地生成思考过程(A -> B -> C)。如果 B 步走错了或不是最优的,模型就无法回头,只能“硬着头皮”继续下去,导致最终失败。
- ToT 的解决方案:ToT 框架将复杂问题分解为一个搜索问题,这个搜索是在一个由“思想”组成的树中进行的。
这个框架主要由以下几个关键步骤组成:
-
思想分解:
首先,把问题分解成多个思考步骤。这和 CoT 类似,但 ToT 将每一步视为树的一个“节点”。
-
思想生成:
在树的当前节点,ToT 不会只生成一个想法,而是让 LLM 生成多个不同的、可能的“下一步”。这就像树的节点分支了。
-
状态评估:
这是 ToT 的灵魂。系统必须评估刚刚生成的这些“分支”哪个更有前途。它让 LLM 充当“评估者”,对每个分支进行打分或给出判断(例如:有希望、无效、太复杂)
- 例如:LLM 评估(A)6x4=24 是一个好路径,但(C)12+12 在当前数字下无法实现,于是判定为“无效”。
-
搜索与回溯:
系统根据评估结果,决定下一步探索哪条分支。它可以使用经典的搜索算法(如 bfs 或 dfs)
- 剪枝(Pruning):如果一个分支被评估为 无效 或 希望渺茫,系统就会“剪掉”这个分支。
- 回溯(Backtracking):如果一个分支走到了死胡同,系统可以“回溯”到上一个节点,去探索之前未被选择、第二有希望的分支。
一句话总结:ToT = LLM(作为生成器 + 评估器)+ 经典搜索算法(如 BFS/DFS)
主要影响与意义
ToT 的影响力远远超出了它在论文中展示的任务:
-
AI智能体(Agent)的基石:
ToT 是“AI智能体“概念的关键里程碑。它提供了一个具体的、可执行的框架,让 LLM 具备了规划(Plan)、行动(Act)、评估(Evaluate)和反思(Reflect)的能力。几乎所有后来的复杂 AI 智能体(如 AutoGPT,MetaGPT 等)都或多或少借鉴了这种“生成 - 评估 - 搜索”的循环。
-
从“提示工程”到“智能体工程”:
它标志着一个范式的转变。在 CoT 时代,我们关心如何写出最好的提示来引导模型。在 ToT 时代,我们关心如何设计最好的系统框架,让 LLM 在这个框架内自主地搜索、评估和迭代。LLM 变成了系统中的一个可调用组件。
-
“自我反思”能力的引入:
ToT 最大的贡献之一是让 LLM 评估自己的(或同伴的)输出。这种“启发式评估”能力被证明是解锁 LLM 更高智能的关键。模型不再只是一个“生成器”,它还是一个“批评家”。
-
可解释性增强:
ToT 的输出不仅是最终答案,还是一棵完整的思维树。我们可以清晰地看到模型尝试了哪些路径、为什么放弃了某些路径,提供了更好的推理透明度。
总结
- CoT/Zero-Shot CoT: 引导出模型内在的逐步推理能力。
- 自洽性: 通过多次采样和投票,用计算成本换取单次生成随机错误的鲁棒性。
- ToT: 通过模拟系统2的深思熟虑(生成备选、评估状态、搜索回溯),用更高的计算成本换取对复杂、多解路径问题的解决能力。
- 它们都无需修改模型本身,属于“推理时工程化”。
- 它们为Agent(尤其是规划、决策、工具使用等能力)奠定了基础。