苹果论文撕开“大模型”皇帝的新衣,所谓AI推理只是暴力检索的知识复读机

493 阅读6分钟

💥【现场还原】💥

当各大厂商都在为自己的"大模型"狂欢时,苹果突然甩出核弹级论文!科研天团用小学数学题把20个顶流AI打回原形。

这波操作直接揭穿行业皇帝的新衣:AI根本不会推理!它们所谓的惊艳表现,全靠3000亿token堆砌的"肌肉记忆"。就像把《五年高考三年模拟》倒背如流的学生,遇到改编题立马现原形。

原文如下:

111.jpg

📃【原文翻译】📃

近年来,大型语言模型(LLMs)的快速发展激发了对其形式化推理能力的关注,特别是在数学领域。GSM8K基准测试广泛用于评估模型在基础学校级别问题上的数学推理能力。

尽管LLMs在GSM8K上的表现近年来显著提高,但仍不清楚它们的数学推理能力是否真正取得进展,这引发了对报告指标可靠性的质疑。

为了应对这些担忧,我们对几种最先进的开放式和封闭式模型进行了大规模研究。为了解决现有评估的局限性,我们提出了GSM-Symbolic,一个通过符号模板生成多样化问题的改进基准测试。

GSM-Symbolic使得模型能够进行更可控的评估,提供了对推理能力的深入见解,并为评估模型在数学推理方面的表现提供了更可靠的指标。我们的发现表明,LLMs在回答同一问题的不同实例时表现出明显的差异。特别是,当问题中仅有数字值发生变化时,模型在GSM-Symbolic基准测试中的表现有所下降。此外,我们还研究了这些模型在数学推理方面的脆弱性,证明随着问题中子句数量的增加,它们的表现显著下降。我们假设这种下降是由于当前的LLMs不具备真正的逻辑推理能力;相反,它们尝试复制训练数据中观察到的推理步骤。当我们添加一个与问题相关的新子句时,即使该子句并不有助于推理链的最终答案,所有最先进的模型的表现仍会显著下降(最高可达65%)。

总的来说,我们的研究提供了更为细致的见解,并揭示了LLMs在数学推理方面的局限性。

🔑【五条证据】🔑

苹果提出了五条证据,证明了人工智能(AI)根本不具备真正的推理能力。他们测试了市面上二十多个主流大模型,包括OpenAI的GPT-4、谷歌、Cloud等,不论是开源还是闭源,均被纳入测试范围。

测试的方式是给AI出小学水平的数学应用题,并对题目做一些小改动。例如,改变题目中的人物名称,或者在题目中添加一些看似不影响答案的废话。

结果令人震惊:这些对人类几乎无关痛痒的改动,竟然导致AI模型的正确率大幅下降。仅仅是改变数字或增加一些无关的细节,AI的表现就崩溃了。显然,AI并不理解推理过程,而是依赖于对问题的模式识别。

【作者实测】

问题:5.5米长的竹竿能不能通过宽3米高4米的门(答案:显然是可以的)

  • ChatGPT o3-mini 1秒给出答案:不能
gpt.jpg
  • DeepSeek R1 在长达5分钟的不断自证和推翻自己答案之后,给出答案:不能
deep.jpg

❓【AI的推理能力为何无法突破?】❓

当前的大语言模型(LLM)采用的主要是“系统一”(System 1)的处理方式,而非“系统二”(System 2)。系统一是人类认知中的快速反应系统,通常依赖于直觉和自动化的反应,类似于肌肉记忆的作用。以“九乘九是多少”这一问题为例,个体通常会不加思索地回答“八十一”,并且没有进行显式的计算,因为这一反应已经通过记忆(例如乘法表)形成了自动化的处理模式。大语言模型的运作方式与此相似,它们通过大量的训练数据,构建了一个巨大的模式识别体系。这个体系使得模型能够迅速匹配并给出答案,无需进行复杂的推理。

然而,当问题的复杂性增加时,尤其是在涉及到较为复杂的数学计算时,系统一的快速反应便不足以处理。例如,面对“九十九乘九十九是多少?”这一问题,系统一的直觉反应无法迅速给出正确答案,此时需要系统二来介入。系统二代表了更为缓慢、深思熟虑的思考过程,比如通过调用完全平方公式来进行计算:(ab)2=a22ab+b2(a-b)^2 = a^2 - 2ab + b^2。这一过程不仅仅依赖于记忆,还需要利用已知的数学原理和逐步推导,体现了推理的特征。

现阶段的大语言模型不具备系统二的能力。虽然它们在训练过程中接触了大量的数据,并通过这种数据学习到一些模式,但它们并未真正“理解”问题,也无法进行深层次的推理。它们的回答只是基于对数据的模式匹配,并没有像人类一样进行逻辑推导。换句话说,AI模型在解决问题时,依靠的是对训练数据的模式识别,而非实际的推理能力。因此,AI缺乏理解问题背景和推理过程的能力,它所做的推理过程仅仅是对输入数据的预测,而不是逻辑推演。

从技术角度来看,这一现象的根本原因在于AI当前缺乏像人类大脑那样灵活的认知结构。人脑的系统一和系统二能够在复杂问题面前进行动态切换和深入思考,而大语言模型目前的设计无法模拟这一过程。AI的工作原理依然局限在模式识别和统计推断的范畴内,缺乏对问题真正的推理能力。

❓【结语:AI的实际应用】❓

尽管现在的大语言模型在许多领域表现出色,但它们的推理能力依然存在严重局限。我们不应过分要求AI具备“全面推理”的能力,而应该将AI的核心优势集中在通过语言理解问题、拆解问题并合理调用工具上。毕竟,AI最终的目标是辅助人类,而非替代人类的所有能力。

如果你有不一样的看法,请发表在评论区!