表格思维链（Tab-CoT)

2023-06-27 680 阅读4分钟

Tab-CoT: Zero-shot Tabular Chain of Thought¹

思维链（CoT）提示方法在各种自然语言处理（NLP）任务中取得了成功，这要归功于它们揭示了潜在的复杂推理过程的能力。这样的推理过程通常表现为隐含的结构化步骤。最近的研究工作也开始探索一些方法，以鼓励捕捉更加明确的结构化推理过程²。在这项工作中，作者提出了一种新颖的表格格式 CoT 提示方法，名为“Tab-CoT”，它允许以高度结构化的方式明确地对复杂的推理过程进行建模。作者展示了 Tab-CoT 能够在多个维度上进行推理（即行和列），通过对一系列推理任务进行广泛的实验，证明了 Tab-CoT 在零样本和少样本情况下的强大能力。

Zero-Shot-CoT vs. Zero-Shot-Tab-CoT

在回答原始问题之前加上诸如 “Let's think step by step” 之类的简单提示就可以促进逐步思维过程。这种与任务无关的 CoT 方法揭示了 LLM 可以作为相当不错的零样本 reasoners。

受到先进的 LLM 具有对表格等结构化数据进行推理的能力的启发³，作者提出了一种新的框架，称为表格思维链(Tab-CoT)，它使用表格填充过程对结构化推理过程进行建模。通过在问题后面加上带列名的表头（例如： |step|question|response|），LLM 就能够实现逐步推理。

Tab-CoT

与 zero-shot CoT 类似，zero-shot Tab-CoT 也包含两个提示：

Table Generation Prompt：|step|subquestion|procedure|result|
Answer Extraction Prompt：Therefore, the answer is

Tables in LLMs

在 OpenAI 官方提供的《Parse Unstructured Data》演示中⁴，作者发现表头 |Fruit|Color|Flavor| 被作为 prompt 的一部分。有了这样的提示，底层 LLM 可以自动生成一个表。由此可以推测，|是 OpenAI 模型中可识别的表分隔符。

传统的自然语言文本是以一维顺序生成的，而表格具有二维结构，允许同时沿列和行进行推理。为了验证这一观点，作者做了一系列简单的实验。

（A）LLMs 能够执行潜在的垂直推理；

（B）将|替换为, LLMs 就无法捕获数据中的模式。(这表明正确的格式至关重要)

（C）故意将错误插入到表中，并要求模型继续生成过程。令人惊讶的是，LLMs 依然能够生成正确的条目，即使错误发生在同一行。这进一步说明了 LLMs 在表格中进行垂直推理的能力。

（D）为了证明 Tab-CoT 能同时进行垂直推理和水平推理，作者将步骤 9 的前两个元素直接添加到步骤 6 之后来增加难度。假设只存在垂直推理，“v4” 下的值应该是 11。相反，生成的值是 13，证实 LLMs 具有同时执行水平和垂直组合推理的潜力。

Table Generation Prompt

为了利用表的二维结构，作者将自然语言提示替换为表生成提示。这规范了该表的上下文，迫使 LLMs 通过填表来逐步进行推理。

同时，列的选择可以非常具体。如果将表的每一行看作一个步骤，那么逐行生成表的过程就会变成一个分步推理的过程。在每个步骤（行）中，我们有多个列，每个列都为当前推理步骤提供了特定的细节。因此，作者将第一列设置为step，它包含一个数字，表示当前行是第几个推理步骤。

Least-to-most 提示²包含两个阶段: 问题简化（problem reduction）和顺序解决（sequential solving）。在问题简化中，将一个问题分解成多个子问题。类似地，作者将subquestion添加为第二列。

传统的 zero-shot CoT 表明，允许模型在回答之前产生一些推理过程可以获得更好的结果⁵。受此启发，作者在表中添加了第三列process。

最后一列命名为answer。由于前面process列下的推理过程不一定提供答案，我们希望使用answer列在每个推理步骤结束时明确请求一个(中间)答案。

基于以上考虑，表头的主要方案设计如下，它作为最终的表生成提示词:

|step|subquestion|process|result|

Experiment

Zero-shot

Few-shot

Jin, Ziqi, and Wei Lu. "Tab-CoT: Zero-shot Tabular Chain of Thought." arXiv preprint arXiv:2305.17812 (2023). ↩
Zhou, Denny, et al. "Least-to-most prompting enables complex reasoning in large language models." arXiv preprint arXiv:2205.10625 (2022). ↩ ↩²
这是因为这些模型是在从互联网上收集的大量数据上进行训练的，这些数据包含大量表格形式的数据。 ↩
platform.openai.com/playground/… ↩
Kojima, Takeshi, et al. "Large language models are zero-shot reasoners." arXiv preprint arXiv:2205.11916 (2022). ↩