前言
今年以来,AI“深度思考”卷起了一股来势汹汹的热潮。
DeepSeek凭借独特的深度思考架构,展现出接近人类专家的因果链分析推理能力。随后,豆包、Kimi、腾讯元宝等大模型也纷纷接入深度思考模式。对于许多用户来说,在借助AI生成内容时,打开深度思考模式,也成了默认的选项。
这些深度思考模式,本质上是一种产生解决方案之前,先在思维框内进行漫长思考过程的模式,也就是Thinking推理模式。它们都试图让AI像人类一样,面对问题时先深入思考和推理,以获得更精准、更深入的结果。
如今,Thinking 模式已成为一种趋势,似乎在AI时代,深度思考能力就是唯一的竞争力。
可问题来了,使用深度思考模式,就代表认知升级吗?如果不使用thinking模式,就代表生成的内容不够精准吗?
最近,加州大学伯克利分校与艾伦人工智能研究所的一项新研究,大胆质疑了显式思考过程对于高级推理的必要性。 研究发现,无需显式思维链,推理模型也能表现出色,甚至超过显式思考过程。
这一结论,给今年以来热衷于追求深度思考的AI领域带来了一定的反思。
1. 打破深度思考模式的“No Thinking”
来源:全球科研平台www.aminer.cn/open/schola…
在理解这篇论文之前,我们需要先搞清楚两个关键概念:Thinking模式和NoThinking模式。
现在不少推理模型,像 DeepSeek R1、OpenAI相关模型等,在处理复杂任务时,都有一套固定的思考流程。
通常,它们都会先生成一条长长的思维链,这个过程还包含反思、回溯和自我验证等环节,最后才得出最终的解决方案和答案,这就是Thinking模式。
而NoThinking模式就截然不同了。在解码过程中,NoThinking会强制思维框为空,并用伪造的Thinking块预填充助手响应。
简言之,它是一种通过特定提示,直接绕过显性推理过程,一步到位生成最终答案的方法。举个例子,在解数学题时,NoThinking不会像Thinking那样一步步推导,而是会直接说出答案。
在生成最终的逐步解决方案之前
Thinking在专用的思考框中生成长思维链(蓝色)
而NoThinking直接在预先填充的虚拟思维框之后
生成解决方案(橙色)
问题来了,在大模型接入深度思考模式之前,不也是没有推理,一步生成答案吗?
事实上,NoThinking和早期大模型直接给出答案不太一样。早期大模型由于技术和训练的限制,没办法进行深度思考;而NoThinking模式是在强大的推理模型基础上,主动选择跳过显式思维过程。
这篇论文的诞生并非偶然。如今,各类大模型为了提升性能,纷纷增加推理时间计算,接入深度思考等Thinking推理模式,通过复杂思维链来处理任务。
这种方式虽然取得了一定效果,但也带来了token使用量增加和延迟变长的问题。
为了解决这个问题,研究人员选用了DeepSeek-R1-Distill-Qwen-32B 模型为主要研究对象。该模型是DeepSeek-R1的蒸馏变体,性能十分出色。
同时,研究人员还准备了一系列极具挑战性的推理任务,像数学竞赛题、编码问题、奥林匹克竞赛题以及定理证明等,并且用 “pass@k” 这个指标来衡量模型的表现。
简单来说,pass@k指的就是从模型生成的多个答案里,随机挑选k个,看其中至少有一个正确答案的概率。
实验结果令人惊喜。在未控制token预算时,对比Thinking、NoThinking 和Qwen Instruct这三种方式,在MiniF2F和ProofNet任务上,NoThinking和Thinking表现相当,但使用的token却比Thinking少3.3-3.7倍。
来源:全球科研平台www.aminer.cn/open/schola…
在其他数据集上,虽然一开始在k=1时,NoThinking 比 Thinking 稍逊一筹,但随着k值增加,差距迅速缩小,到最大k值时,两者已经表现相当,而NoThinking的token使用量依然少很多。
当控制 token 预算后,情况更有意思。
在低预算设置下,比如当token数少于约3000个时,NoThinking在所有k值下都比Thinking表现更好,而且k值越大,优势越明显。
从Figure5就能清晰看到这种趋势,横坐标是k指标,纵坐标是pass@k指标,在低token预算时,橙色的NoThinking曲线在低预算区域一路领先蓝色的 Thinking 曲线;在高token预算时,虽然Thinking在单样本准确率(pass@1)上暂时领先,但从k=2开始,NoThinking就反超了。
来源:全球科研平台www.aminer.cn/open/schola…
研究人员还通过计算答案分布的熵来衡量多样性。他们发现,虽然在平均多样性上,NoThinking和Thinking各有优劣,但NoThinking在不同问题的多样性更均匀。 这或许就是它在高k值下表现更好的一个原因。
NoThinking在问题之间的方差始终较低
说明NoThinking在不同问题的多样性更均匀
2. 省成本,破“深度思考”迷信
研究的意义,在于打破了今年以来对于深度思考模式的行业迷信。正如研究人员在论文中所说,要“重新考虑冗长思考过程的必要性”。
更进一步讲,深度思考模式并非万能,也并非任何场景都能适用。
从token成本来看,在很多任务中,NoThinking使用的token数量比Thinking模式少许多,却能达到相当甚至更好的效果。这意味着在实际应用中,企业和开发者可以大大降低token成本,提高效率。
除此以外,深度思考模式更易带来“幻觉”问题,所谓合理的答案,可能只是基于大量数据的拼凑。而NoThinking模式直接跳过复杂的思维链,避免了一些因过度思考产生的幻觉问题,这也给我们在设计和使用AI模型时提供了新的思路。
深度思考模式有它的优势,但NoThinking模式也展现出了它的潜力。如何审慎看待深度思考模式,根据不同的需求和场景,选择最合适的方案,生成我们心中预期的内容,让AI真正发挥出价值,这也是我们在AI快速前进的浪潮中,应该往后想一步的问题。
这里是AMiner数据平台——全球领先的学术数据挖掘与分析平台,您身边的科研助手,有关学术趋势洞察、学者网络分析问题都可以与我们探讨!
网站链接:www.aminer.cn/open/schola…
或直接关注【AMiner Research】公众号,获取最新的AI前沿研究、行业动态和学者信息!