🚀 AI突破:这是能超越LLM的类脑模型吗?

449 阅读15分钟

(COOL团队相关信息,开源免费全栈开发框架,对全栈开发、AI编程、AI应用开发等感兴趣可以直接到我们官网了解噢~)

COOL官网地址:cool-js.com/


目前的LLM主要依赖于“思维链(Chain-of-Thought, CoT)”技术。尽管CoT看起来很强大,但它本质上是一种将推理过程外部化为顺序文本生成的方法。这种方法被描述为存在“任务分解脆弱、数据需求巨大和延迟高”等问题。它更像是一种“拐杖”,严重依赖于“脆弱的、人为定义的分解”,其中一个微小的失误或步骤顺序的错误都可能使整个推理过程脱轨。更深层次的分析显示,当前LLM的核心架构“矛盾地显得浅层”,这对其最受追捧的能力——推理——构成了根本性限制。它们固定的深度将其限制在AC0或TC0等计算复杂度类别中,从而阻碍了深层、多阶段的推理。

这种现象揭示了AI发展中一个重要的趋势:是继续“规模化”现有模型,还是寻求“架构”上的突破?LLM对CoT的依赖,作为其在执行复杂推理时的权宜之计,恰恰暴露了其底层架构在处理真正推理深度时的局限性。这表明,当前仅仅通过增加模型参数和训练数据来扩展LLM的范式,可能正在触及其在深层推理方面的根本性架构限制。CoT虽然有用,但它并非一个固有的架构解决方案,而更多是一种推理时策略。这种认识为HRM的出现奠定了基础,它直接挑战了“规模优先”的范式。这暗示着,AI推理领域更深刻的进步可能源于架构创新,而非仅仅是蛮力扩展。对于开发者而言,这意味着在面对特定推理任务时,需要重新思考“最大的模型”是否总是“最智能的”,或者是否需要一种根本不同的方法。

引入HRM:Sapient Intelligence的颠覆性创新

那么,如果存在另一种方法呢?如果我们能构建出真正具备深度和效率的AI推理模型,而无需海量数据或脆弱的CoT,会怎样?来自Sapient Intelligence的分层推理模型(Hierarchical Reasoning Model, HRM)

Sapient Intelligence,一家专注于通用人工智能(AGI)研究的公司,最近宣布开源其分层推理模型(HRM)。HRM被视为一种“新颖的循环架构”,专门“旨在解决AI推理中的挑战,特别是在设计和执行复杂的目标导向型行动序列方面”。

Sapient Intelligence选择开源HRM,一个他们声称是“迈向通用计算和通用推理系统的变革性进展”的模型,这不仅仅是一次技术发布,更是一项加速AGI领域研究与发展的战略举措。开源能够吸引社区的协作、审查和快速迭代,这对于AGI这样复杂且长期目标至关重要的研究来说,是不可或缺的。对于开发者而言,这无疑是个好消息。这意味着可以直接访问一种挑战LLM现状的前沿架构。他们可以在此新基础上进行实验、贡献并构建,从而可能催生一个围绕类脑、高效推理模型的新生态系统,并使原本可能专有的高级AI研究得以普及。

🧠 HRM如何思考(朋友们看看和你想的是否一样?)

类脑魔法:双模块系统

HRM最引人入胜之处在于,它不仅仅是另一个神经网络;它深受我们大脑工作方式的启发!🤯

HRM明确“受到人脑分层和多时间尺度处理的启发”。它采纳了皮层计算中观察到的基本原理:“分层处理、时间分离和循环连接”。这种分离使得“稳定、高层次的指导能够快速、低层次的计算”。该模型利用了两个“相互依赖的循环模块”:一个负责“慢速、抽象规划”的高层模块(可以将其视为您的战略大脑,设定总体方向),以及一个处理“快速、详细计算”的低层模块(这是您的战术执行引擎,负责具体工作)。Sapient Intelligence的创始人兼首席执行官王冠(Guan Wang)将HRM描述为能够在“一次前向传播中动态地在自动思维(‘系统1’)和深思熟虑的推理(‘系统2’)之间切换”,这与人类认知过程形成了引人注目的类比。

HRM的设计并非仅仅是表面上“受到大脑启发”;它直接实现了分层处理、时间分离和循环连接等特定且已被充分理解的神经学原理。首席执行官的引述进一步强化了这种深层联系。HRM的实证成功表明,这些生物学原理不仅仅是令人好奇的现象,它们可以直接转化并高效地用于构建先进的人工智能。这为“神经科学启发式AI”迈向AGI的路径提供了强有力的验证。这种发展可能导致计算神经科学和生物学上合理的AI模型研究的显著复苏和资金增加。对于开发者而言,这意味着对认知科学和大脑架构的基础理解可能变得越来越有价值,从而能够设计出真正智能的系统,超越纯粹的数据驱动或统计学习范式。

单次前向传播的超能力:告别脆弱的步骤

这与基于CoT的LLM形成了一个巨大的差异,后者将任务分解为明确的、顺序的步骤,而这些步骤可能非常脆弱。

HRM“在一次前向传播中执行顺序推理任务,无需对中间过程进行显式监督”。这意味着它不需要像CoT那样将其思维过程外部化为token。一个关键的创新是“分层收敛”,它明确地对抗了标准循环神经网络(RNN)中常见的“过早收敛”限制。在每个循环中,低层模块会稳定地收敛到一个局部均衡,然后高层模块利用这个均衡来更新其状态,从而有效地“重新启动”低层模块的计算,并以全新的上下文开始一个新的收敛阶段。这个过程允许HRM执行“一系列独特、稳定、嵌套的计算”,并实现“N*T步的增强有效深度”,在许多步骤中保持高计算活性。

传统的LLM“深度”通常通过层数或生成的CoT长度来衡量。HRM通过在单次前向传播中进行内部、迭代和自我纠正的分层处理,实现了“显著的计算深度”,而非通过顺序的token生成。这表明,AI推理中真正的“深度”并非仅仅是输出链的表面长度或前馈层的数量,而是模型内部的迭代细化和动态上下文重置,这使得计算活动和探索能够在模型的隐藏状态中持续进行。对于开发者而言,这意味着需要重新思考如何设计和评估复杂推理模型。它将重点从管理外部(可能脆弱的)思维链转移到构建内部、鲁棒且动态适应的推理过程。这预示着一种更稳健、更不易出错的多步推理实现方式,从而可能带来更可靠的AI系统。

💡 小模型,大影响:HRM为何备受瞩目

效率之王:小巧身躯,巨大能量

忘掉那些拥有数十亿参数的模型吧。HRM向我们展示,有时,少即是多。

HRM拥有令人难以置信的紧凑规模,仅有“2700万参数”。它在“仅使用1000个训练样本”的情况下,在复杂推理任务上取得了“卓越的性能”。对于如此复杂的任务,这无疑是一个惊人的小数据集。更重要的是,它在“无需预训练或CoT数据”的情况下运行。这直接挑战了当前LLM需要对海量文本语料库进行大规模预训练,并通常依赖CoT进行推理的范式。

当前AI领域主要由需要巨大计算资源(数十亿参数)和海量数据(预训练)的模型主导,这实际上将先进AI的开发集中在少数几家大型公司手中。HRM的极致效率(低参数、低数据、无需预训练)从根本上降低了开发和部署高级推理AI的门槛。它显著减少了对计算和数据基础设施的需求。这可能导致AI创新的去中心化。小型团队、初创公司和个人研究者无需超级计算机或PB级数据,也能构建强大的、专业化的推理系统。这为AI在数据稀缺(例如,罕见疾病、特定科学研究)或计算受限(例如,边缘AI、设备内机器人)的领域开辟了可能性,从而促进一个更具包容性和多样性的AI开发生态系统。

基准测试杀手:超越巨头

这不仅仅关乎效率;它关乎在其他模型失败之处取得的卓越成果。

HRM在包括复杂数独谜题和大型迷宫最优路径寻找在内的挑战性任务上取得了“近乎完美的性能”。在这些特定任务上,“最先进的CoT方法完全失败”,这突显了HRM的独特能力。它“在抽象推理语料库(ARC)上超越了拥有显著更长上下文窗口的更大模型”。ARC被公认为“衡量通用人工智能能力的关键基准”。具体来说,HRM在ARC-AGI-2上取得了5%的性能,这“显著优于OpenAI o3-mini-high、DeepSeek R1和Claude 3.7 8K”,而这些模型都更大,并依赖更长的上下文长度。

HRM在专门用于测试通用推理和问题解决能力的基准测试(ARC、数独、迷宫)中表现出色,而当前的大型LLM在这些领域却举步维艰甚至失败,尽管HRM在规模和数据需求上比它们小了几个数量级。这强烈表明,当前主流的AI基准测试(通常侧重于语言生成、知识回忆或特定领域任务)可能并非衡量“真实推理能力”或AGI进展的最有效指标。HRM在ARC上的表现,一个明确为AGI设计的基准,突显了一条不同且可能更直接的路径。AI研究界可能需要重新评估其关注点。与其仅仅扩展现有模型并优化语言中心化的基准测试,不如转向探索新颖的架构,并在真正测试通用推理和自适应问题解决能力的基准(如ARC)上进行评估。这重新定义了在核心AI推理背景下“最先进”的含义。

关键对比:HRM与LLM:快速一览差异

为了更好地理解HRM的独特价值和它与主流LLM范式的鲜明对比,以下表格提供了一个快速、直观的比较:

🛠️ 这对开发者和AI未来意味着什么

构建AI的实际意义

HRM的设计旨在实现“训练稳定性与效率”,这对于实际部署至关重要。其紧凑的规模和数据效率“在大型数据集稀缺但准确性至关重要的领域开辟了新的机会”。这突显了它非常适合利基、高价值的应用。

HRM在推理任务上表现出色,且效率惊人。与此同时,其他研究也表明,分层方法在增强LLM(如ReasonFlux)和改进深度搜索(如HiRA)方面呈现出更广泛的趋势。这表明未来的AI架构可能不是单一的,而是模块化的。系统可能集成专门的组件来处理特定的认知功能,而不是一个巨大的模型试图完成所有任务(语言、推理、规划)。HRM可以作为一个高效、专用的“推理模块”,集成到更大的混合AI系统中。开发者可能会转向构建更复杂、更混合的AI系统,将LLM的优势(用于语言理解、生成和广泛知识检索)与HRM等高效、专用的推理模块相结合。这可能带来更稳健、更可解释、资源效率更高的AI应用,从而实现“系统1”(快速、直观、类似LLM的联想)和“系统2”(慢速、深思熟虑、类似HRM的推理)之间更细致的整合。

HRM可能大放异彩的领域

HRM的潜在应用领域非常广泛,尤其是在当前LLM因数据限制、对精确深度推理的需求或实时约束而表现不足的领域。

Sapient Intelligence已经在探索具体的应用:

  • 医疗保健: 支持复杂诊断,尤其是在数据信号稀疏、微妙且需要深度推理的罕见疾病案例中。这与AI在医疗诊断中的普遍应用相符 。
  • 气候预测: 将季节内到季节(S2S)预测准确率提高到97%,这一飞跃直接转化为社会和经济价值。
  • 机器人技术: 由于其低延迟、轻量级架构,可作为“设备内‘决策大脑’”,使下一代机器人能够在动态环境中实时感知和行动。这对于自主系统至关重要。

更广泛的AI推理应用包括欺诈检测、信用风险分析、药物发现以及复杂工作流程的自动化,所有这些都受益于准确性和效率的提高。HRM的能力与这些高风险、逻辑驱动的领域非常契合。

HRM所强调的现实世界应用(医疗诊断、气候预测、机器人技术)的特点是:要么对准确性有极其严格的要求(“高风险”),要么处于数据有限、嘈杂或需要实时处理的环境中(“低数据”)。这些正是大规模、数据密集型LLM常常难以应对或不切实际的场景。这展示了HRM的独特价值主张:它能够从稀疏数据中执行深度、准确推理的能力,以及其高效率,使其非常适合那些目前未被主流AI范式充分服务的利基但关键的应用。在专业、高影响力领域工作的开发者应密切关注HRM。它为在以前不可行的领域部署先进AI提供了可行的途径,可能在个性化医疗、环境预测和真正自主系统等领域释放巨大的社会和经济价值,而无需承担当前模型所带来的高昂成本或数据要求。

迈向AGI的一步?宏伟愿景

这是最重要的一点。HRM不仅仅是为了解决数独问题;它被定位为迈向通用人工智能(AGI)的重要一步。

HRM项目的首要目标是“推进通用人工智能能力”。它被描述为“迈向通用计算和通用推理系统的变革性进展”。Sapient Intelligence的首席执行官王冠清晰地阐述了这一愿景:“AGI的真正意义在于赋予机器人类水平,并最终超越人类的智能。……CoT让模型通过概率来模仿人类推理,这只是一种权宜之计。在Sapient,我们从零开始,采用一种类脑架构,因为大自然已经花费了数十亿年对其进行完善。我们的模型实际上像人一样思考和推理,而不仅仅是为了在基准测试中取得好成绩而进行概率计算。我们相信它将达到,然后超越人类智能,那时AGI的对话才真正开始”。

AGI被定义为能够“像人类一样理解、学习和应用跨多个领域的知识”的AI。AGI的关键组成部分包括“通用学习”、“推理”(分析复杂情况、提出假设并得出逻辑结论的能力)、“自我改进”和“适应性”。迈向AGI的“神经科学启发式AI”路径明确提到了分层处理。

主流的AGI叙事通常围绕着LLM的持续扩展,寄希望于涌现智能。而HRM则提出了另一种类脑的架构路径,以最小的资源实现了卓越的推理能力。HRM的成功表明,AGI的路线图可能是多方面的,并非完全依赖于纯粹的规模。它暗示着,根本性的架构创新,特别是那些模仿生物智能的创新,可能是实现通用智能更直接或更有效的方式。这鼓励了AGI研究生态系统更加多元和健壮,不同的方法(符号AI、深度学习、神经科学启发模型)可以相互融合和补充。对于开发者而言,这意味着对AGI“进展”的定义保持开放心态,并探索那些优先考虑深度、高效推理而非仅仅原始数据处理或语言生成能力的模型。

项目地址:github.com/sapientinc/…