你还在用AI“深度思考”模式吗？伯克利研究表明，不思考反而更高效！别卷“深度思考”模式啦！加州大学伯克利分校与艾伦人工智

前言

今年以来，AI“深度思考”卷起了一股来势汹汹的热潮。

DeepSeek凭借独特的深度思考架构，展现出接近人类专家的因果链分析推理能力。随后，豆包、Kimi、腾讯元宝等大模型也纷纷接入深度思考模式。对于许多用户来说，在借助AI生成内容时，打开深度思考模式，也成了默认的选项。

这些深度思考模式，本质上是一种产生解决方案之前，先在思维框内进行漫长思考过程的模式，也就是Thinking推理模式。它们都试图让AI像人类一样，面对问题时先深入思考和推理，以获得更精准、更深入的结果。

如今，Thinking 模式已成为一种趋势，似乎在AI时代，深度思考能力就是唯一的竞争力。

可问题来了，使用深度思考模式，就代表认知升级吗？如果不使用thinking模式，就代表生成的内容不够精准吗？

最近，加州大学伯克利分校与艾伦人工智能研究所的一项新研究，大胆质疑了显式思考过程对于高级推理的必要性。 研究发现，无需显式思维链，推理模型也能表现出色，甚至超过显式思考过程。

这一结论，给今年以来热衷于追求深度思考的AI领域带来了一定的反思。

1. 打破深度思考模式的“No Thinking”

来源：全球科研平台www.aminer.cn/open/schola…

在理解这篇论文之前，我们需要先搞清楚两个关键概念：Thinking模式和NoThinking模式。

现在不少推理模型，像 DeepSeek R1、OpenAI相关模型等，在处理复杂任务时，都有一套固定的思考流程。

通常，它们都会先生成一条长长的思维链，这个过程还包含反思、回溯和自我验证等环节，最后才得出最终的解决方案和答案，这就是Thinking模式。

而NoThinking模式就截然不同了。在解码过程中，NoThinking会强制思维框为空，并用伪造的Thinking块预填充助手响应。

简言之，它是一种通过特定提示，直接绕过显性推理过程，一步到位生成最终答案的方法。举个例子，在解数学题时，NoThinking不会像Thinking那样一步步推导，而是会直接说出答案。

在生成最终的逐步解决方案之前

Thinking在专用的思考框中生成长思维链（蓝色）

而NoThinking直接在预先填充的虚拟思维框之后

生成解决方案（橙色）

问题来了，在大模型接入深度思考模式之前，不也是没有推理，一步生成答案吗？

事实上，NoThinking和早期大模型直接给出答案不太一样。早期大模型由于技术和训练的限制，没办法进行深度思考；而NoThinking模式是在强大的推理模型基础上，主动选择跳过显式思维过程。

这篇论文的诞生并非偶然。如今，各类大模型为了提升性能，纷纷增加推理时间计算，接入深度思考等Thinking推理模式，通过复杂思维链来处理任务。

这种方式虽然取得了一定效果，但也带来了token使用量增加和延迟变长的问题。

为了解决这个问题，研究人员选用了DeepSeek-R1-Distill-Qwen-32B 模型为主要研究对象。该模型是DeepSeek-R1的蒸馏变体，性能十分出色。

同时，研究人员还准备了一系列极具挑战性的推理任务，像数学竞赛题、编码问题、奥林匹克竞赛题以及定理证明等，并且用 “pass@k” 这个指标来衡量模型的表现。

简单来说，pass@k指的就是从模型生成的多个答案里，随机挑选k个，看其中至少有一个正确答案的概率。

实验结果令人惊喜。在未控制token预算时，对比Thinking、NoThinking 和Qwen Instruct这三种方式，在MiniF2F和ProofNet任务上，NoThinking和Thinking表现相当，但使用的token却比Thinking少3.3-3.7倍。

来源：全球科研平台www.aminer.cn/open/schola…

在其他数据集上，虽然一开始在k=1时，NoThinking 比 Thinking 稍逊一筹，但随着k值增加，差距迅速缩小，到最大k值时，两者已经表现相当，而NoThinking的token使用量依然少很多。

当控制 token 预算后，情况更有意思。

在低预算设置下，比如当token数少于约3000个时，NoThinking在所有k值下都比Thinking表现更好，而且k值越大，优势越明显。

从Figure5就能清晰看到这种趋势，横坐标是k指标，纵坐标是pass@k指标，在低token预算时，橙色的NoThinking曲线在低预算区域一路领先蓝色的 Thinking 曲线；在高token预算时，虽然Thinking在单样本准确率（pass@1）上暂时领先，但从k=2开始，NoThinking就反超了。

来源：全球科研平台www.aminer.cn/open/schola…

研究人员还通过计算答案分布的熵来衡量多样性。他们发现，虽然在平均多样性上，NoThinking和Thinking各有优劣，但NoThinking在不同问题的多样性更均匀。 这或许就是它在高k值下表现更好的一个原因。

NoThinking在问题之间的方差始终较低

说明NoThinking在不同问题的多样性更均匀

2. 省成本，破“深度思考”迷信

研究的意义，在于打破了今年以来对于深度思考模式的行业迷信。正如研究人员在论文中所说，要“重新考虑冗长思考过程的必要性”。

更进一步讲，深度思考模式并非万能，也并非任何场景都能适用。

从token成本来看，在很多任务中，NoThinking使用的token数量比Thinking模式少许多，却能达到相当甚至更好的效果。这意味着在实际应用中，企业和开发者可以大大降低token成本，提高效率。

除此以外，深度思考模式更易带来“幻觉”问题，所谓合理的答案，可能只是基于大量数据的拼凑。而NoThinking模式直接跳过复杂的思维链，避免了一些因过度思考产生的幻觉问题，这也给我们在设计和使用AI模型时提供了新的思路。

深度思考模式有它的优势，但NoThinking模式也展现出了它的潜力。如何审慎看待深度思考模式，根据不同的需求和场景，选择最合适的方案，生成我们心中预期的内容，让AI真正发挥出价值，这也是我们在AI快速前进的浪潮中，应该往后想一步的问题。

这里是AMiner数据平台——全球领先的学术数据挖掘与分析平台，您身边的科研助手，有关学术趋势洞察、学者网络分析问题都可以与我们探讨！

网站链接：www.aminer.cn/open/schola…

或直接关注【AMiner Research】公众号，获取最新的AI前沿研究、行业动态和学者信息！