CoT 神话破灭，并非 LLM 标配！三大学府机构联手证实，CoT 仅在数学符号推理有用【新智元导读】CoT 只对数学、

【新智元导读】CoT 只对数学、符号推理才起作用，其他的任务几乎没什么卵用！这是来自 UT-Austin、霍普金斯、普林斯顿三大机构研究人员联手，分析了 100 + 篇论文 14 类任务得出的结论。看来，CoT 并非是所有大模型标配。

谷歌 CoT 开山之作，再次成为 OpenAI o1 模型的利器。

LLM 复杂推理能力的实现，就离不开一步一步思考，但是这种「思考」究竟对于什么类型的任务有帮助呢？

来自 UT-Austin、霍普金斯、普林斯顿的研究人员，使用 CoT 对 100 多篇论文，进行了定量元分析。

论文地址：arxiv.org/abs/2409.12…

同时，他们还对 14 个模型的 20 个数据集，进行了评估。

结果显示，CoT 在涉及数学、逻辑任务中，能够增强 LLM 性能，但在其他类型任务上，收益较小。

在 MMLU 中，除非问题或模型回答中包含 “=”（表示符号运算和推理），否则直接生成答案，而不使用 CoT，能达到与使用 CoT 相同的准确率。

基于这一发现，作者通过分离「规划」和「执行」，并工具增强的 LLM 进行比较，来分析 CoT 在这些任务中的行为。

结果证实，CoT 的大部分收益，来自于符号执行的改进，但相对于使用符号求解器来说，表现较差。

总而言之，作者希望通过研究告诉我们，CoT 并非是万能的。

「CoT 可以有选择性地应用，以平衡性能和推理计算成本」。

另外，未来研究中还需超越基于提示的 CoT，转向利用整个 LLM 中间计算的新范式。

用 CoT，还是不用 CoT，这是一个问题

o1 成为当红炸子鸡，一大原因便是采用了 CoT 架构。

但是，千万不要被 OpenAI 误导了。

其实，先前就有研究称，CoT 在数学以外的领域，并没有那么有用，甚至有时会损害模型性能。

最新研究中，作者的目标是去评估，基于提示的 CoT 在哪些领域发挥作用最大，以及具体的原因。

110 篇论文，14 大类别

对此，研究人员从机器学习顶会 ICLR 2024、两个 NLP 顶会 EACL 2024 和 NAACL 2024 中，筛选了所有 4642 篇论文（2259 篇来自 ICLR 2024，2,382 篇来自两个 ACL 附属会议）。

在这些论文中，通过自动筛选出现 CoT、chain-of-thought 或 chain of thought 两次的文章，共得到 516 个样本。

然后，下一步通过手动筛选，得到对「CoT 提示与直接提示进行比较」的论文。

经过一系列排除，最终收集了 110 篇论文样本，涵盖了 264 个数据集。

最后，研究人员将所获得样本中的不同任务，分成 14 个类别。

如下图 2 所示，在不文献中，作者发现 CoT 在任务分类中的性能增益。

可见，CoT 在符号推理、数学、逻辑推理三大类别任务中，性能最优，平均提高分别为 14.2%、12.3% 和 6.9%。

使用 CoT 的前三项任务，平均性能为 56.9%，而没有 CoT 的性能为 45.5%。

对于其他类别任务，使用 CoT 的平均性能为 56.8%，而没有使用 CoT 的平均性能为 56.1%。

图 2 右侧显示了，在数学、符号或逻辑推理以外的任务实验中，平均 CoT 增量较高 10 个异常值。

虽然这些论文没有被归类为数学逻辑，但其中一些在某种程度上与逻辑、数学或符号推理相关。

从这个列表中可以看出，从 CoT 中获益最多的数据集是 BIG-bench Hard。还有 BIG-bench Temporal、MMLU-Moral Scenarios 都涉及到了基本简单问题的组合。

同时，还有几个异常值，也隐约遵循这一趋势。比如，ScienceQ 是由一系列自然和社会科学科学选择题组成，但如果不按学科 / 问题类型细分成绩，很难解释其收益。

其次，在一些论文分析中，其他论文评分结果并未显示出 CoT 带来的改进。

实验结果

更进一步的，团队在零样本学习和少样本学习的设置下，对 14 个模型的 20 个数据集进行了一系列实验，以比较性能。

与 CoT 相比，零样本 CoT 有何改进？

如下图 3 所示，具体显示了图 1 中，每个推理类别的平均 CoT 性能改进。右侧呈现的是，对每个数据集使用 CoT 所带来的性能增益，这是所有模型和单个模型选择的平均值。

在非符号推理类别和数据集上，特别是那些包含主要涉及常识（CSOA、PIOA、SiOA）、语言理解（WinoGrande）和阅读理解（(AGILSAT、ARC-Easy、ARC-Challenge）问题的数据集。

零样本 CoT 和零样本直接回答的性能之间，几乎没有区别。

尽管这些数据集中涉及推理，但是 CoT 并没有带来显著的改进。

相较之下，数学和符号类别，与符号和许多符号数据集一起得到了大幅改进。

MATH 和 GSM8k 的增幅分别高达 41.6% 和 66.9%。对于半符号数据集如 Mvsteries 等，结果显示出适度的增幅。

例如，从简单的自然语言 (ContextHub) 或更复杂的常识陈述 (MuSR 谋杀之谜) 解析出一阶逻辑。所有结果均显示在附录 C.1 中，表 7 中还显示了 CoT 和直接答案提示的完整数字结果列表。我们还探索了少数镜头设置，发现它对 CoT 何时提供帮助的影响不大; 参见附录 B。

答案形式，是否会影响到 CoT 帮助的范围？

答案——不多，预先规划或推理正确反应，可能会阻碍模型自主反应能力。

除了数学之外，许多常用的问题数据集是多项选择。

对于两个非多项选择，且包含不同级别的非符号推理来回答问题数据集，CoT 具有与跨模型直接回答相似的性能。

其次，BiGGen Bench 使用自由式回答作为问题答案，并使用 LLM 作为法官，以 1-5 级来评估这些回答。

得到的答案，本质上模糊了 CoT 和直接答案之间的界限。

为此，研究人员设置了一个新的 CoT 提示，要求语言模型生成自由形式响应的规划，然后要求其在生成完整的响应。

知识、软推理和常识方面，性能提升显著吗？

除了 MMLU、StrategyQA 和 MuSR 外，大多数情况下答案是否定的。

作者使用配对引导法在知识、软推理和常识推理类别的 13 个数据集上，测试了 CoT 改进的显著性。

结果得出，大约 38% 的数据集显示出，这三个推理类别的效益是显著的。

MMLU 和 MMLU PRO

MMLU 和 MMLU Pro 显示了，使用 CoT 带来收益，但由于这些数据集非常广泛，因此无法进行简单的表征。

研究人员探索了 MMLU 每个类别上的 CoT 性能，以了解这些领域之间 CoT 性能的差异。

对此，他们列出了 3 个类别，其中 CoT 在 MMLU 和 MMLU Pro 上，Llama 3.1 8B 和 70B 最大的误差减少。

其中，一些任务类别明显是数学性质，正如图 8 中所呈现的那样。

此外，我们还可以看到，CoT 在商业任务上，能够提供一定的帮助。经过仔细核查，这些任务也会常常涉及数学等一些内容。

实验结果如下图 4 所示，当问题或生成结果汇总包含 “=”，以及不包含“=” 时，使用 CoT 时的增益效果。

CoT 在公式推理中的优缺点

前面主要说明了 CoT 主要在符号推理任务发挥作用，但没有说明具体原因。

在符号任务上，研究人员 CoT 的性能提升归因于两个阶段：规划阶段和执行阶段。

下图 6 显示了，代表性模型选择的结果。

将直接答案与 Plan+ Direct 求解器和 Plan+CoT 求解器进行比较时，可以注意到，对于许多数据集和模型，仅有规划并不能解决大部分性能增益。

与直接答案相比，需要 CoT 或 Plan+CoT 求解器，来获得强大的性能。

尽管 CoT 和 Plan+CoT 求解器，比直接答案和 Plan+Direct 求解器有优势，但在大多数设置中，仍以 Plan+Tool 求解器为主。

与符号求解器相比，LLM 执行和追踪步骤的能力受到限制。

鉴于以上的发现，研究团队认为 CoT 应该有选择性地应用，尤其是在需要处理数学、逻辑推理的任务。

而不分青红皂白地使用 CoT，可能会导致推理成本增加。

他们还建议，若想进一步提升模型推理能力，还需要超越基于提示的 CoT。

总而言之，CoT is not all you need。

参考资料：

arxiv.org/abs/2409.12…