大模型评测数据集:MGSM

650 阅读5分钟

LANGUAGE MODELS ARE MULTILINGUAL CHAIN-OF-THOUGHT REASONERS

Hugging Face:huggingface.co/datasets/ju…

image-20241216181513718.png

摘要

​ 我们评估了多语言环境中大型语言模型的推理能力。我们通过将 GSM8K 数据集中的 250 个小学数学问题(Cobbe et al., 2021)手动翻译成 10 种类型不同的语言,引入了多语言小学数学 (MGSM) 基准测试。我们发现,通过思维链提示解决 MGSM 问题的能力随着模型规模的增加而出现,并且模型具有非常强大的多语言推理能力,即使在孟加拉语和斯瓦希里语等代表性不足的语言中也是如此。最后,我们表明语言模型的多语言推理能力扩展到其他任务,例如常识推理和上下文中的单词语义判断。MGSM 基准测试在 github.com/google-rese… 上公开提供。

1、引言

​ 在这项工作中,我们引入了 MGSM 基准,以弥合基于英语的思维链推理和多语言 NLP 的进展之间的差距。我们通过将问题手动翻译成目标语言,将英语 GSM8K 数据集的子集 (Cobbe et al., 2021) 扩展到十种类型不同的语言。据我们所知,这是第一个评估语言模型的算术推理能力的多语言基准测试。

2、MGSM 基准

​ 源数据。我们使用 GSM8K (Cobbe et al., 2021),这是一个英语人工注释的小学数学问题数据集,作为基础数据源。对于 MGSM,我们从 GSM8K 官方测试示例列表中选取了前 250 个示例。根据官方解决方案,每个问题需要 2 到 8 个步骤来解决(图 2)。GSM8K 中每个问题的答案都写成阿拉伯数字,我们在所有语言中保持一致,以促进跨语言预测。

image-20241217132059332.png

​ 目标语言选择。我们选择了除英语 (EN) 以外的十种语言,跨越八个语系和标准预训练数据集中的不同表示级别,例如 mC4(Xue et al., 2021):孟加拉语 (BN)、中文 (ZH)、法语 (FR)、德语 (DE)、日语 (JA)、俄语 (RU)、西班牙语 (ES)、斯瓦希里语 (SW)、泰卢固语 (TE) 和泰语 (TH)。

3、多语言COT提示工程

​ 思维链 (COT;Wei et al., 2022b) 提示通过用模型应该预测的中间推理步骤来增强小样本示例,从而帮助改进许多小样本推理任务。在多语言设置中,我们可以通过预测问题原始语言的推理步骤,应用 CoT 以母语 (NATIVE-COT) 解决问题。这衡量模型理解和解决特定语言问题的能力。

​ 或者,我们可以要求模型预测英语思维链 (EN-COT),而不管问题语言如何。这种方法可能很有用,因为英语经常被用作跨语言迁移的源语言,并且在用作提示语言时被发现有效。

​ 最后,我们可以将问题翻译成英语,并使用英语思维链(TRANSLATEEN)来解决它。在这种设置下,我们使用谷歌翻译 API 将问题翻译成英语。这与翻译训练设置类似,是微调多语言模型的最佳设置,其中训练数据被翻译成英语。

4、MGSM的实验

​ 在本节中,我们使用源语言中的示例,在各种提示设置下,评估两个具有代表性的先进预训练大语言模型——GPT-3和 PaLM在我们的 MGSM 基准上的多语言推理能力。

image-20241217133101751.png

5、拓展到其他多语言推理基准

​ XCOPA 是一个多语言评估数据集,旨在评估跨多种语言的语言模型的因果常识推理能力4。它是英语 COPA 数据集(Gordon et al., 2012)的扩展和重新注释,其中验证和测试集示例被仔细翻译成 11 种类型不同的语言并进行注释。这些语言是爱沙尼亚语 (ET)、印度尼西亚语 (ID)、意大利语 (IT)、库斯科-科洛克丘亚语 (QU)、斯瓦希里语 (SW)、泰米尔语 (TA)、泰语 (TH)、土耳其语 (TR)、越南语 (VO) 和普通话 (ZH)。任务目标是根据问题(即“What was the cause?” 或 “What was the result?”)确定前提和两个选项之间的因果关系。因此,一个成功的模型不仅要执行常识性推理,还要将其推理能力推广到新的语言中。对于每种目标语言,XCOPA 在验证集中包含 100 个带注释的示例和 500 个。

​ XL-WiC 是一个多语言的上下文词语义判断基准,涵盖十三种语言:保加利亚语(BG)、丹麦语(DA)、德语(DE)、爱沙尼亚语(ET)、波斯语(FA)、法语(FR)、克罗地亚语(HR)、意大利语(IT)、日语(JA)、韩语(KO)、荷兰语(NL)和中文(ZH)。给定同一语言的两个句子以及在两个句子中都出现的一个目标词,要求模型判断该词在两个句子中的意思是否相同。为了得出正确答案,模型需要了解词义的概念,并根据上下文推断一个词的词义。尽管这个任务很简单,但极具挑战性;PaLM-540B 在 WiC(Pilehvar 和 Camacho-Collados,2019)——该任务的英语版本上仅获得 64.6 分。

7、总结

​ 在本文中,我们介绍了 MGSM,这是第一个用于评估语言模型算术推理能力的多语言基准。MGSM 是 GSM8K 数据集(Cobbe 等人,2021)的扩展,包含用十种不同类型的语言编写的 250 个示例。我们还对大型语言模型(如 GPT-3 和 PaLM)在多个多语言基准上的多语言推理能力进行了全面分析,包括我们自己的 MGSM 数据集。我们发现,大规模语言模型似乎可以在多种语言中进行复杂的多步推理,包括那些在训练语料库中覆盖率不到 0.01%的代表性不足的语言。最后,我们证明了多语言思维链提示是一种在经验上对多语言常识推理有效的方法,在具有挑战性的 XCOPA 数据集上平均比之前的最佳模型高出 13%。