大语言模型的数学推理能力:现状与争议 一、大语言模型在数学推理方面表现不佳的证据
- 多项测试结果不理想:近两年来的很多测试显示,大模型在计数、符号推理、算术推理、子集求和、几何推理等方面的表现都不理想。
- 微调测试下正确率大幅下滑:苹果公司研究人员通过对GSM8K数据集进行微调形成GSM - Symbolic测试系统,微调方式包括替换题目中的专有名词、改变其中的数字、添加无关信息。结果发现大语言模型在这种微调后的测试中输出答案正确率大幅下滑,其中添加无关信息会导致所有最先进的大语言模型的性能大幅下降,降幅高达65%。这表明大语言模型可能并不真正理解数学概念和进行逻辑推理,而只是将问题与训练数据中的问题进行比较。
二、对大语言模型数学推理能力提升的质疑
- 数据污染问题:为提高大语言模型的推理能力,OpenAI发布了GSM8K数据集。但这个数据集的题目固定且被反复使用,很可能出现数据污染,即用于测试的例子同时也被包含在了模型的训练数据中。所以即使大语言模型在GSM8K测试中的结果变好,也不能确认其数学推理能力真的提高了。
三、大语言模型与人类推理机制的差异
- 人类的隐藏技能:人类在做小学数学推理题时至少有两条隐藏技能。一是透过现象看本质的能力,能够抓取或识别表层语言背后的一般性运算和推理的规律;二是由内及外、活学活用的能力,能够通过非关键因素(如专有名词、数字、无关信息等)的替换和变化展开千变万化的实际应用。而大语言模型目前所得出的正确答案,主要体现了系统的记忆和匹配能力,这种应答机制更像一种模式匹配,与人类推理的机制完全不同,也没有遵循逻辑。
四、不同观点的存在
- 认为大语言模型能推理的观点:认为大语言模型能推理的人觉得,某些问题是人们通过推理来解决的,现在大语言模型解决了这些问题,所以它们会推理。并且以大语言模型在很多问题上显示出远超常人的推理能力为依据。同时,相关技术发展迅速,后续版本可能会弥补当前的漏洞,而且OpenAI已经把“推理”列为当前的主攻方向了。
- 目前难以定论:目前关于大语言模型是否真的具有数学推理能力的争论尚未有定论。正反双方主要通过寻找大语言模型在推理中的成功或失败案例来举证,但这些案例在多大程度上揭示了系统的一般推理能力,以及目前的缺陷能否被克服还不确定。因为对于“推理”概念本身的理解不同,以及大语言模型推理研究基于不同的理论(借鉴描述性理论精神,但与心理学等又有差异),所以导致了这种争议的存在。