【AI】DeepSeekV3R1拆解系列（持续更新）标准 Transformer 层输入：一系列标记嵌入 (toke

🟡 思想的进化

🟡 对比传统AI大模型

🔘 传统训练流程的致命缺陷

第一阶段：监督训练陷阱
- 需人工标注海量「完美答案」微调模型
- 成本极高（如GPT-4标注成本超4000万美元）
- 模型过度依赖标注数据，失去泛化能力
第二阶段：奖励模型瓶颈
- 需构建复杂的人类偏好数据集（标注答案排名）
- 奖励模型(RM)的准确性直接决定后续强化学习效果
- 数据标注偏差会导致整个训练流程崩溃
第三阶段：PPO算法的效率困局
- 每次迭代需生成多个回答供RM评分（如生成8-16个/问题）
- 参数更新依赖全局奖励对比，计算复杂度呈指数增长
- 典型资源消耗：训练175B模型需3000+张A100 GPU

数据依赖过重、计算冗余严重、各阶段耦合度高，导致成本失控

🔘 DeepSeek破局之道

第一阶段：冷启动革新
- 仅需数千条「推理框架数据」（非完整答案）
- 用特殊标记规范输出格式（如<reasoning>与<answer>分离）
- 成本降低98%：传统方法需50万条标注，此阶段仅需5000条
第二阶段：动态奖励建模
- 抛弃人工标注排名，通过GROPO算法自动生成对比数据
- 奖励函数融合准确性（如数学解题正确率）与语言质量（避免中英混杂）
- 数据处理效率提升40倍：单卡日处理量从200问题→8000问题
第三阶段：GRPO算法革命
- 分组相对优化：将回答按质量分组，组内对比替代全局对比，将计算复杂度从O(n²)降至O(n)
- 蒸馏加速：将强化学习策略蒸馏到小模型，推理速度提升5倍
- 全场景对齐：同步优化帮助性/无害性/事实性，避免多次微调

🔘 关键创新对比表

维度	传统流程	DeepSeek方案	效益提升
数据依赖	50万+人工标注	5000条框架标注+自生成数据	成本降低99%
奖励建模	人工排名标注+静态RM	GROPO动态奖励生成	训练误差减少63%
强化学习	PPO全局对比	GRPO分组优化+蒸馏	GPU利用率×3.7倍
迭代周期	单次生成8-16个回答/问题	单次生成2-4个回答/问题	显存占用减少58%

🔘 启示

打破Scaling Law魔咒
证明性能提升不必依赖堆算力，算法创新可使「单位算力产出值」提升10倍+
中小玩家入场机会
传统方法训练千亿模型需上亿美元，DeepSeek方案可压缩至千万美元级
芯片设计新方向
GRPO算法对显存带宽需求降低，催生专为强化学习优化的低功耗AI芯片（如存算一体架构）

AI训练从「暴力美学」到「精准外科手术」的范式转移，核心是用算法创新替代资源堆砌。

🟡 DeepSeekR1训练全流程

1. 起点：DeepSeek-v3

初始模型：DeepSeek-v3，基于开源模型（如Qwen 1.5、7、1.4、32b，LLaMA 70b），参数规模从1.5亿到70亿不等。
训练数据：数千个CoT（Chain of Thought，推理链）示例：通过逐步推理解决问题的示例，用于提升模型推理能力。GSM8K：小学到初中的数学应用题数据集。MATH：高中和大学水平的数学问题数据集。
目标：通过微调（Fine-tune），将DeepSeek-v3变成一个“好的模型”（Good model to start RL），为后续强化学习（RL）打基础。这一步是预训练后的初始微调，重点是提升推理能力，数据选择偏向数学和推理任务。

2. 第一次微调（Fine-tune）

数据：约14万条CoT数据。
方法：使用GRPO（基于规则的推理奖励）。GRPO是一种优化方法，通过规则定义奖励，专注于提升推理能力。
结果：强化了推理能力（strong reasoning）。但是削弱了通用能力（weaker general capabilities），因为数据过于聚焦推理任务，忽略了其他通用知识。第一次微调让模型在推理上更强，但通用能力下降，说明训练数据和目标过于单一。

3. 过滤（Filter）

数据生成：从第一次微调后的模型生成约60万条高质量推理轨迹（traces），包括写作（writing）和问答（QA）。
目的：筛选出高质量数据，为后续强化学习（RL）提供优质输入。这一步是数据清洗，确保后续训练用的是高质量的推理数据，同时引入写作和问答任务，试图弥补通用能力的不足。

4. 第二次微调（Fine-tune）

数据：约20万条非示例数据。
目标：恢复通用能力，因为第一次微调导致通用能力下降。
结果：得到一个“推理+通用能力”的混合数据模型（Reasoning + General Mix of data types）。第二次微调通过引入非示例数据，平衡推理和通用能力，避免模型过于偏向推理任务。

5. 最终模型：DeepSeek-R1

特点：DeepSeek-R1在推理能力（reasoning）和通用能力（general capabilities）之间找到平衡，同时优先考虑帮助性和无害性（helpfulness and harmlessness）。还继续通过蒸馏生成最终的Dilled-R1模型。最终DeepSeek-R1通过两阶段微调和数据筛选，实现了推理与通用的平衡，最终通过蒸馏生成更高效的Dilled-R1模型。

🟡 MLA

MLA（Multi-head Latent Attention）和 MHA（Multi-Head Attention）都可以用来实现注意力机制，但它们并不是完全并行的“思考方式”选择，而是针对不同目标优化的设计。DeepSeekV3 选择 MLA 代替 MHA，不是因为“思考方式”不同，是为了解决 MHA 的内存和效率问题。理论上一个模型可以用 MHA 或 MLA，但 DeepSeekV3 的架构明确是用 MLA 完全取代 MHA，而不是两者共存或切换.

MHA：每个头存完整 K 和 V，像记日记，写满细节，占地方。
MLA：用潜向量压缩 K 和 V，像记笔记，只写要点，需要时推导，省空间。
提升：内存减少 90%+，速度更快，核心仍是自注意力机制。
抛弃 MHA？DeepSeekV3 证明 MLA 可行，但需根据任务需求权衡。

MLA + MoE + MTP 的组合，基本把 MHA 的“全面扫描”优化成了“精简提效”，DeepSeekV3 证明这套新玩法能干掉传统 MHA 的内存和速度瓶颈。以后如果硬件更强或任务更简单，MHA 可能还有用，但趋势是 MLA 类的精简机制会主导。

🟡 MTP

传统模型一次预测一个 token（像接龙），其实就是STP单令牌预测，MTP为多令牌预测，一次预测多个（像下棋看几步）。像导航，MHA 是“走一步看一步”，MTP 是“规划整条路”，既快又准。

DeepSeekV3 的做法：
- 预测深度： 每个位置预测未来 2 个 token（可调，比如 1+1 或更多）。
- 因果链完整： 保持每个 token 的前后依赖关系，不乱预测。
- 训练目标： 在 14.8 万亿 token 上预训练时，直接优化多步预测能力。
- 推理加速： 配合“投机解码”（speculative decoding），提前猜多步，验证后批量输出。
提升：
- 性能： 理解更连贯（尤其代码和数学），准确率高。
- 速度： 推理速度增 1.8 倍（60 token/秒），因为一次吐更多词。

🟡 FP8 混合精度训练

用 8 位浮点数（FP8）代替 16/32 位，减少显存占用。 GPU 内存减半，训练成本低（全流程仅 278.8 万 H800 GPU 小时，约 558 万美元），精度几乎不丢。

🟡 DualPipe 算法

计算和通信重叠，减少 GPU 集群的“空闲泡泡”（pipeline bubbles）。大规模训练效率高，计算-通信比优化，2048 个 GPU 跑 2 个月搞定。

🟡 DPRO

传统深度学习通常基于监督学习，通过大量标注数据训练一个模型，使其能够准确地预测输入数据的标签或输出值。监督学习假设输入和输出之间的关系是固定的，无法适应动态变化的环境，核心思想可以概括为以下几点：

极其明确的目标：每个输入样本都有对应的标签（真实值），模型的任务是尽可能让预测值接近真实值。
误差的即时反馈：模型每次预测后都可以直接计算误差（损失函数），并通过反向传播调整参数。
没有主观能动性：模型不需要主动探索环境，只需被动地拟合数据分布。

而强化学习是一种通过与环境交互来学习策略的方法。它的目标是让智能体在环境中采取一系列行动，以最大化累积奖励。强化学习的核心思想可以概括为以下几点：

探索与利用平衡：智能体需要在探索未知动作和利用已知高奖励动作之间找到平衡。
误差的延迟反馈：奖励信号可能是延迟的（例如，在游戏中，只有完成一局后才知道最终得分）。
动态环境：强化学习适合处理动态变化的环境，因为智能体可以根据环境反馈不断调整策略。

PPO 就是一种流行的强化学习算法，其核心思想是通过优化策略来提高累积奖励，同时避免策略更新过快导致性能下降。GRPO 是一种改进的强化学习算法，它结合了分组比较的思想，旨在解决传统强化学习PPO的一些局限性，比如对奖励模型的依赖、奖励操控问题以及效率问题。普通强化学习关注单个动作的好坏，而 GRPO 关注一组动作的相对好坏。

🔘自动驾驶案例

假设我们正在开发一款自动驾驶汽车，目标是让汽车能够在复杂的交通环境中安全驾驶。这包括识别道路标志、遵守交通规则、避让行人、规划路线等任务。为了实现这一目标，我们需要设计一个智能系统来控制汽车的行为。接下来，我们将从传统深度学习开始，逐步过渡到强化学习（PPO），再到 GRPO，看看每种方法如何应对这个任务。

🔘传统深度学习：基于监督学习的感知模块

在自动驾驶系统中，感知模块负责识别环境中的关键信息，比如车道线、交通标志、行人和车辆的位置。为了让汽车“看懂”周围的环境，我们可以使用传统深度学习的方法训练一个CNN，比如YOLO。

数据收集：收集了大量的驾驶视频并为每一帧图像标注了车道线、交通标志和障碍物的位置。
模型训练：使用这些标注数据训练了一个 CNN 模型，让它能够根据输入图像预测出车道线的位置和障碍物的类别。
损失函数：定义了一个交叉熵损失函数用来衡量模型预测值与真实标签之间的差距。
优化过程：通过反向传播算法，模型不断调整参数，使得预测结果越来越接近真实标签。

这种方法简单高效，特别适合处理静态的感知任务，比如图像分类和目标检测。但是传统深度学习过分依赖标注数据，比如某些场景的数据不足，比如沙尘暴或者雾霾天气的图片较少，模型可能表现不佳。而且还一个最核心的问题在于，感知模块只能识别环境信息，也就是说它只是一个“眼睛”，但无法决定汽车下一步该做什么（比如是否需要刹车或变道），也就是说它缺乏主观能动性，它没有决策行为能力，它只有判别能力。

🔘普通强化学习（PPO）：从感知到决策

为了让汽车能够根据感知模块提供的信息做出决策（比如加速、减速、变道等），我们可以使用强化学习的方法训练一个决策模块。这里以 PPO 算法为例，说明其核心思想。

环境交互：我们将汽车放入一个模拟环境中（比如 CARLA 模拟器），让它与环境进行交互。每次汽车采取一个动作（比如加速或刹车），环境会返回一个新的状态（比如车速、位置）和奖励信号（比如是否安全行驶）。
奖励信号：我们设计了一个奖励函数，用来指导汽车的行为。例如：
- 如果汽车保持在车道内行驶，奖励 +1。
- 如果汽车撞到障碍物，奖励 -10。
- 如果汽车到达目的地，奖励 +100。
策略优化：通过 PPO 算法，我们不断优化汽车的策略（policy），使它能够在环境中获得更高的累积奖励。
价值函数：为了更好地评估每个状态的价值，我们还训练了一个价值函数（value function），用于计算优势函数（Advantage Function），从而指导策略优化。

传统深度学习是一种“被动学习”的方式：它依赖于明确的标签数据（监督学习），模型的任务是尽可能让预测值接近真实值，这种神经网络模型没有“目的性”，它的目标仅仅是拟合训练集中的输入-输出关系，所以说这种方法适合静态任务（如图像分类、语音识别），但在动态环境中显得力不从心。

强化学习则让模型具备了“主观能动性”。智能体的目标不再是简单地拟合数据，而是通过与环境交互，采取一系列行动来最大化累积奖励。数据方面，通过设计一个完美的奖励函数，取代了传统深度学习中的标签数据，训练的思想从数据驱动变为了奖励驱动，成为指导智能体行为的核心机制。由于奖励信号可以延迟且稀疏，智能体需要在探索未知动作和利用已知高奖励动作之间找到平衡，这种能力让它能够适应动态变化的环境。

奖励函数确实是强化学习中的一把“双刃剑”：好的奖励函数可以完全摆脱对标注数据的依赖，让模型具备自主决策能力。在自动驾驶场景中，如果奖励函数设计得好（如奖励安全驾驶、惩罚碰撞），智能体可以学会如何在复杂交通环境中做出最优决策。如果奖励函数设计得过于局部或不够宏观，可能会导致智能体学到不符合预期的行为。例如：如果奖励函数只关注短期收益（如奖励快速到达目的地），智能体可能会忽略安全性，导致频繁发生碰撞。如果奖励函数存在漏洞（如奖励绕圈而不是前进），智能体可能会利用这些漏洞获得高奖励，但实际表现却很差（即所谓的“奖励操控问题”）。因此，奖励函数的设计是强化学习中最关键也是最具挑战性的部分。

奖励函数：成也萧何，败也萧何

奖励函数的最大优势在于它赋予了模型“目的性”：因为在传统深度学习中，模型只是被动地拟合数据分布，没有明确的目标。而在强化学习中，模型的目标是最大化累积奖励，这使得它能够主动采取行动。例如：自动驾驶汽车会主动规划路线，因为它知道到达目的地可以获得高奖励。游戏 AI 会主动尝试不同的策略，因为它知道赢得比赛可以获得高奖励。这种“目的性”让强化学习模型能够在动态环境中表现出色，而传统深度学习模型则无法做到这一点。

然而，奖励函数的设计不当也可能带来严重的问题：如果奖励函数只关注短期收益，智能体可能会陷入局部最优行为。例如：自动驾驶汽车可能会为了快速到达目的地而忽视交通规则，导致频繁发生碰撞。游戏 AI 可能会反复执行某些低效但能获得短期奖励的动作，而不是寻找更优的策略。或者如果奖励函数存在漏洞，智能体可能会学会一些不符合预期的行为。例如：在自动驾驶场景中，如果奖励函数奖励保持车道内行驶但没有惩罚绕圈，汽车可能会在原地绕圈而不是前往目的地。

🔘 GRPO：解决奖励函数问题的关键

既然奖励函数是强化学习中的一大挑战，而 GRPO 的设计正是为了解决这个问题。GRPO 的核心思想包括以下几点：

分组比较：一次生成一组候选动作，整体评估它们的表现，而不是逐个动作评估。
规则化奖励模型：使用简单、可控的规则评估结果，而不是依赖复杂的奖励函数。
全局优化：通过组内相对比较，关注一组动作的相对好坏，避免局部最优。

相比传统的强化学习方法（如 PPO），GRPO 具有以下几个显著优势，首先是减少对奖励函数的依赖，因为设计一个完美的奖励函数实在是太过于复杂，所以GRPO 使用基于规则的奖励模型，而不是复杂的奖励函数。这些规则通常是明确且可控的，例如：在自动驾驶场景中，规则可以是“是否偏离车道”、“是否避让行人”等，在代码生成任务中，规则可以是“代码是否能成功运行”。

尽管 GRPO 有很多优势，但它更适合任务目标明确且规则可控的场景。例如：

自动驾驶：规则可以是交通法规和安全驾驶标准。
代码生成：规则可以是代码的语法正确性和功能完整性。
数学推理：规则可以是答案的正确性。

对于任务目标模糊或规则难以定义的场景，GRPO 的效果可能有限。

其实这些方法并不是互相排斥的，而是可以结合使用的。例如，在自动驾驶系统中，我们可以用传统深度学习训练感知模块，用 GRPO 优化决策模块，从而实现端到端的自动驾驶能力。

🟡 MoE

把大模型拆成多个小专家，每个专家只处理特定类型的任务或 token，省力又高效。

671B 参数，37B 激活： 总共 6710 亿参数，但每次只激活 370 亿（约 5.5%），靠路由器（gating network 门控网络）动态挑专家。
细分专家（Fine-grained Segmentation）： 把前馈网络（FFN）的隐藏维度拆成小块，每块一个小专家（比如分成 256 个专家，每个只管一小部分知识），避免专家“啥都会一点”。
共享专家（Shared Experts）： 加了几个“常驻专家”，处理通用知识（比如英语语法），其他专家专攻细分领域，减少重复计算。
无辅助损失负载均衡： 传统 MoE 用额外损失函数平衡专家使用率，DeepSeekV3 用新策略（节点限制路由），天然平衡，不掉 token。

为啥不能挑出自己领域的专家构建垂直大模型？

混合专家模型（MoE, Mixture of Experts）是一种高效的深度学习架构，常被描述为“多个领域专家协同工作”。然而，这种比喻虽然直观，却容易让人误以为可以轻松挑出某个领域的“专家”来构建垂直大模型。实际上，这种想法并不现实：

专家分工是隐式的，与人类领域无关

专家的职责是数据驱动的，而非语义驱动的。

MoE 中的“专家”并不是按人类知识领域（如环保、法律、医学等）划分的，而是通过训练数据自动学习到的特征分组。每个专家负责的是输入数据中某些特定的模式或特征，比如高频词汇、复杂句法或长文本结构。这些职责完全由统计规律决定，与真实的知识领域无关。

专家之间高度协作，无法独立工作

专家之间的协作是模型高效工作的核心机制

MoE 的设计初衷是让多个专家协同完成任务，而不是让单个专家独立处理问题。即使某个专家在某些任务中表现突出，它仍然需要其他专家的支持才能生成高质量的结果。强行挑出部分专家会导致模型性能大幅下降，甚至无法正常运行。

专家分工是动态的，难以人为干预

专家分工是动态且隐式的，无法人为拆解或重组

MoE 模型通过门控网络动态选择哪些专家参与当前任务。这种选择是基于输入样本的特征，而不是人为指定的。因此，即使你试图手动挑选“环保专家”，也无法确定哪些专家真正对环保任务有贡献。

缺乏工具支持，操作难度极高

现有技术无法支持精准提取特定领域的专家

目前的深度学习框架和开源模型均没有提供直接的方法来识别或提取特定领域的专家。要实现这一点，需要对模型进行深入分析（如可视化专家的激活模式），并开发专门的工具来分离和重组专家。这不仅复杂耗时，还可能破坏模型的整体性能。

更优的解决方案已存在

现有技术手段已经足够解决垂直领域的需求，无需强求提取专家。

与其纠结如何提取特定领域的专家，不如采用更成熟的技术来优化垂直领域应用：

微调（Fine-tuning）：用领域数据对模型进行微调，使其更好地适应特定任务。
检索增强生成（RAG）：结合外部知识库，让模型在生成回答时参考领域数据。
模型剪枝与量化：通过压缩模型参数量和计算量，降低硬件需求。

一句话总结：MoE 的专家是特征专家，不是领域专家；挑不出来，也不需要挑！

🟡 DeepSeekV3R1 演进图（3.17）

🟡 COT （3.17）

🔘直击COT的本质

利用LLM本身的自增强效应，对模型本身的能力进行引导重组，再利用自增强效应..往复循环

LLM 是自回归模型，每一步输出成为下一步的上下文。CoT 的推理链通过这种机制逐步构建，前一步的推理引导后一步。所以，这就是自增强效应：即生成的推理步骤作为上下文，反过来约束和优化后续输出，形成连贯的思维链。 CoT（Chain of Thought，思维链）是一种提示词 技术，旨在提升LLM推理能力。它通过引导模型逐步输出推理过程，而不是直接给出答案，本质是对模型已有能力的引导和重组，利用其预训练阶段学到的语言模式和知识，通过提示词激活逐步推理的能力。切记关键词：已有能力引导重组、已有能力引导重组，已有能力引导重组，重要的事情要说三遍！

🔘为什么要用 CoT？

增强推理能力：复杂问题（如数学、逻辑推理）需要多步推导。CoT 将问题分解为子步骤，降低模型遗漏关键信息或跳跃推理的风险。
提高可解释性：CoT 让模型的“思考过程”可见，不仅给出答案，还展示推理路径，便于理解和调试。
增强可控性：通过观察推理步骤，可以发现模型的错误点并调整提示或干预。

🔘CoT提示的基本组成

指令：明确告诉模型要逐步推理，例如“Let’s think step by step”。
推理过程：这是 CoT 的核心，要求模型输出：问题分解（拆成子问题）、逻辑规则应用、中间推导、联系..
示例（可选）：在 Few-Shot CoT 中，提供“问题-推理过程-答案”的例子，让模型模仿。

🔘CoT 的主要类型

Zero-Shot CoT：利用模型预训练中与逐步推理相关的语言模式，不提供示例，只通过简单指令（如“Let’s think step by step”）触发推理。
Few-Shot CoT：通过模仿示例，比如提供1个或多个示例展示“问题-推理-答案”的完整过程。
Least-to-Most CoT (LtM)：分两阶段：① 将复杂问题分解为子问题；② 依次解决子问题，每步用 CoT。

🔘CoT 的高级变种——纯内部COT

自洽性 (Self-Consistency)：生成多条 CoT 推理路径，选择最一致的答案，提高可靠性。
思维树 (Tree-of-Thought, ToT)：探索多条推理路径，形成树状结构，接近人类的多路径思维。
Auto-CoT：自动生成 Few-Shot 示例，先聚类问题，再用 Zero-Shot CoT 生成代表性推理链。

🔘CoT 的高级变种——React

ReAct（Reasoning + Acting）的全称表明它建立在“推理（Reasoning）”之上，而这个“推理”部分本质上就是 CoT 的延续。ReAct 在 CoT 的基础上增加了“行动（Acting）”，允许模型在推理过程中调用外部工具（如 API、搜索引擎）。因此在 Agent 开发框架（如 LangChain、AutoGPT）中，ReAct 是重要灵感来源。例如，Agent 在处理任务时会分解目标（CoT），然后调用工具（如搜索、计算）完成子任务（Acting）。但它不是唯一的思想：其他框架可能用不同的方式实现类似功能（如独立的任务规划模块 + 工具调用），不一定严格遵循 ReAct 的“推理-行动交织”模式。

纯 CoT 示例： “今天纽约的天气如何？”

CoT 输出：“第一步，确定今天的日期是 2025 年 3 月 16 日；第二步，回忆我训练数据中关于纽约天气的信息；第三步，根据我最后一次更新的数据，推测可能的天气模式；结论：可能是晴天，但数据不准确。” 纯依赖模型内部知识，可能过时或不精确。

ReAct 示例：

ReAct 输出：“第一步，确定今天的日期是 2025 年 3 月 16 日；第二步，我需要最新的天气数据；[调用天气 API]；第三步，API 返回今天纽约是多云，温度 10°C；结论：今天纽约天气多云，10°C。” 推理过程中动态获取外部信息，答案更准确。所以ReAct 的推理部分依然是 CoT 风格，但它通过“行动”突破了 CoT 的局限（仅依赖内部知识）。

🔘CoT 的依赖于预训练还是RL？

先说结论：CoT 的有效性依赖LLM 在大规模预训练中习得的语言理解和推理能力。想想Claude3.5sonnet的thinking模块就行了。“Let’s think step by step”为何有效？这类短语在预训练数据中常与详细推理文本相关联（如教科书、教程）。提示词就像“开关”，激活模型已有的逐步推理模式，而非依赖额外的训练机制。即使未经强化学习（RL）的模型，也能通过 Zero-Shot CoT 输出推理链，说明 CoT 的基础在于预训练。

所以可见，CoT 的基本实现不依赖 RL。一个预训练良好的模型无需 RL 也能用 CoT。 RL 起到的是增强作用：

RLHF：通过人类反馈微调模型，奖励清晰、正确的推理步骤，进一步提升 CoT 能力。
奖励函数：可以设计奖励机制，鼓励模型生成符合 CoT 模式的输出（如逐步分解、逻辑连贯）。

🔘CoT 与 “顿悟时刻”的理解

UHA 是指模型在推理过程中发现错误并调整策略的“顿悟”现象（如“刚才错了，换个思路”）。这是动态调整的表现。 COT本身，如Zero-Shot 或 Few-Shot CoT 是静态的，模型按提示生成推理链，但不会自我评估或修正错误。UHA 需要额外机制，这种动态调整（如回溯、换路径）超出了基础 CoT 的能力范围。所以Uha时刻是与RL相关的， RL 通过试错和奖励优化，让模型学会评估推理路径的有效性，可能出现 UHA（例如发现某步矛盾后调整）。高级 CoT（如 ToT）也支持 UHA，通过探索多路径和回溯模拟“顿悟”。因此，非 RL 模型能生成 CoT，但难以实现 UHA。因为它们缺乏系统性的自我修正能力，调整更多是随机性的（依赖上下文概率）。换句话说，非 RL 模型可能沿错误路径继续推理，而 RL 模型可能在训练中学会“停下来检查”。

假设你问：“一个数学题 2+3=？用 CoT 解决。”

非 RL 模型：提示“Let’s think step by step” → 输出：“第一步，2 是第一个数；第二步，3 是第二个数；第三步，2+3=5。”（静态推理）
RL 优化模型：若第一步写错（如“2+2”），可能自我修正：“不对，应该是 2+3，答案是 5。”（可能出现 UHA）