Google提出机器学习新范式 Nested Learning,有望突破“持续学习”难题

485 阅读10分钟

尽管以大语言模型(LLM)为代表的机器学习模型取得了巨大成功,但它们在持续学习(Continual Learning)方面仍面临着根本性挑战。目前的模型一旦完成预训练,其知识体系很大程度上便被固化,难以在不遗忘旧知识的前提下持续获取新技能,这一现象被称为“灾难性遗忘”(Catastrophic Forgetting)。为了解决这一难题,谷歌的研究人员提出了一个名为“嵌套学习”(Nested Learning)的机器学习范式。该研究的核心成果是,通过将单一的机器学习模型重新诠释为一个由多层级、嵌套的优化问题组成的复合系统,可以统一模型“架构”与“优化器”这两个传统上被割裂的概念,为实现真正高效的持续学习系统开辟了新路径。

论文背景 —— 大模型的“灾难性遗忘”问题

人类的大脑是一个令人惊叹的学习机器。我们能够不断学习新技能,今天学骑自行车、明天学做饭、后天学编程,而且不会忘记之前掌握的本领。更神奇的是,大脑会在睡眠中通过"记忆重放"(Memory Replay)的机制,将白天学到的短期记忆逐渐转化为长期记忆,存储在大脑皮层中。这个过程被称为"记忆巩固"(Memory Consolidation)。然而,对当前的大模型,在学习新任务时,会大幅调整内部的"权重"参数,而这些调整往往会破坏之前存储的知识结构,这就导致:

  • 资源浪费: 每次需要大模型学习新知识时,要么从头重新训练整个模型(耗费大量计算资源和时间),要么小心翼翼地调整参数以避免破坏旧知识(严重限制了学习能力)。
  • 法适应动态世界:真实世界的信息是不断变化的,一个无法持续学习的AI系统,就像一本永远无法更新的旧百科全书,知识会过时。
  • 离真正智能还很远:人类智能的核心特征之一就是持续学习能力,如果AI做不到这一点,就难以实现“通用人工智能”。

核心思想

嵌套学习的核心设计哲学是:模型的架构和用于训练它的规则(即优化算法)本质上是相同的概念,它们仅是不同“层次”(levels)的优化,每个层次都有自己的信息流(Context Flow)和更新速率。这种视角基于神经生理学启发,例如人脑中统一且可重用的结构以及多时间尺度更新机制。

该范式认为,一个复杂的机器学习模型,包括其训练过程,实际上是一系列相互关联、嵌套或并行的优化问题构成的集合体。每一个内部问题都有其自身需要学习的信息流。通过引入“更新频率”(Update Frequency)这一维度,嵌套学习能够对模型的所有组件(从网络参数到优化器内部状态)进行分层,从而将传统的深度学习模型从一个扁平的、单向堆叠的结构,转变为一个具有多层次计算深度的立体结构。

技术架构与机制

嵌套学习范式通过“关联记忆”(Associative Memory)的概念来解构模型。通俗点说,“关联记忆”就是将一个东西和另一个东西关联起来的能力。比如,当你看到一张熟悉的面孔,就能立即想起对方的名字;或者闻到某种香味,就能回忆起童年的某个场景。嵌套学习中,关联记忆就是学习"键-值"映射:给定一个"键"(输入),返回对应的"值"(输出)。

Google研究人员认为,可以将模型的各个部分,无论是注意力机制还是优化器,都视为学习“键-值”映射的记忆模块。例如:训练一个简单的线性层,就是在学习如何将输入数据映射到"局部意外信号"(Local Surprise Signal,也就是误差);Transformer中的注意力机制,是在学习如何将查询(Query)映射到相关的信息(Value);甚至优化器中的"动量"(Momentum)项,也是一个关联记忆,它学习如何压缩和存储历史梯度信息。

在此基础上,整个框架可以被分解为多个层次,模型中任何组件的更新速度(每单位时间更新次数)被定义为其频率。频率越高的组件处于越内层,频率越低的在越外层。

  • 快记忆(高频更新):比如注意力机制中动态计算的矩阵,每一步都会更新,负责处理当前输入的即时信息;
  • 中速记忆:比如优化器的动量项,更新频率适中,用于平滑和加速学习过程;
  • 慢记忆(低频更新):比如模型的主要权重参数,更新较慢,存储长期、稳定的知识。

通过引入"更新频率"这个新维度,嵌套学习将扁平的模型结构变成了一个多层次的立体架构。

基于此范式,研究者设计了具体的架构创新:

  • 深度优化器 (Deep Optimizers) :将优化器(如Adam、SGD with Momentum)本身视为可学习的关联记忆模块。用更复杂、更有表达力的模型(比如多层感知机MLP)来替代简单的线性记忆。这样,优化器不仅能存储历史信息,还能学习更复杂的模式,更智能地指导参数更新。
  • 连续谱记忆系统 (Continuum Memory System, CMS) :该系统将传统Transformer中作为长期记忆的MLP层(几乎不变)和作为短期记忆的注意力机制(每步都变),扩展为由一系列更新频率递减的MLP块组成的“连续谱”。每个MLP块与一个特定的更新频率相关联,负责压缩和存储对应时间尺度上的抽象知识,从而构建了一个更丰富、更高效的记忆体系,尤其擅长处理长序列信息。这就像给模型装上了一个"渐变式"的记忆体系,能够同时处理从瞬时到长期的各种时间尺度的信息。
  • HOPE架构:作为一个基于嵌套学习原理的验证性模型,HOPE是一个自修改的循环架构。它基于Titans架构(谷歌之前提出的一个具有神经长期记忆的模型),并融入了CMS模块。它的最大特点是自能够通过一个自引用的过程来优化自身的记忆更新策略,也就是说,HOPE不仅能学习知识,还能学习如何更好地学习。它可以动态调整自己的更新规则,适应不同的任务需求。理论上,这种递归式的自我优化可以创造出无限层级的学习深度,从而实现更高阶的“上下文学习”(In-context Learning)能力。


【HOPE架构与Transformer对比图,该图清晰地展示了HOPE架构如何通过连续谱记忆系统取代了传统Transformer中的前馈网络层】

创新点

该研究的核心创新之处在于它提供了一个全新的设计维度,而不仅仅是在现有框架上进行改良。

从大脑结构获得灵感

嵌套学习的设计深受神经科学研究的启发。大脑中的神经元在不同的时间尺度上工作:有些神经元反应迅速,处理即时感知;有些则响应缓慢,负责长期规划和抽象思考。更重要的是,大脑通过海马体和新皮层的协同工作,实现了快速学习与长期巩固的完美平衡:

  • 海马体:快速学习新信息,就像一个"临时记事本";
  • 新皮层:缓慢整合知识,形成长期记忆,就像一个"永久档案库";
  • 记忆巩固:通过睡眠中的记忆重放,海马体的临时记忆逐渐转移到新皮层。

嵌套学习的多层次、多时间尺度架构,本质上就是在模拟这种生物学机制。

范式统一

首次将模型架构和优化算法视为一个统一的、连贯的嵌套优化系统,打破了两者在设计上的传统壁垒。长期以来,AI研究者将模型架构(网络结构)和优化算法(训练方法)视为两个独立的研究方向。但嵌套学习揭示:它们本质上是同一回事,只是处于不同的优化层级。这种统一的视角不仅在理论上优雅,更在实践中开辟了全新的设计空间。现在,研究者可以沿着"更新频率"这个新维度,探索无数种可能的架构和优化方案。

迈向真正的持续学习

CMS和HOPE的设计直接针对灾难性遗忘问题。通过在不同时间尺度上更新不同层次的记忆,模型可以在学习新知识的同时有效保留旧知识。这种架构为构建能够像人类一样持续学习、自我完善的AI系统,提供了一条可行的路径。

实验结果

实验结果证实了嵌套学习、连续体记忆系统设计以及自我修改Titans模型的有效性。

语言建模与常识推理: HOPE架构在所有规模和基准任务中均表现出优异的性能。

在1.3B参数规模下,HOPE在常用语言建模和常识推理任务上表现出更低的困惑度和更高的准确率,超越了Titans, Samba 和标准Transformer架构。

长上下文记忆: HOPE在长上下文NIAH下游任务中展示了卓越的记忆管理能力,证明CMS在处理扩展序列信息方面提供了一种更高效、更有效的方式。

局限与展望

尽管HOPE架构在多个基准测试中展示了优越性,但这些实验的规模和任务范围仍然有限。该范式的普适性和在更大规模模型(如千亿、万亿参数级别)上的有效性仍需要更广泛和深入的验证。

嵌套学习范式为弥合当前大模型的静态、健忘特性与人脑卓越的持续学习能力之间的差距提供了一个研究方法。未来的工作将围绕以下方向展开:

  • 探索新维度:研究社区可以沿着嵌套学习提供的“深度”维度,探索和设计更多层级、更复杂的自学习和自修改AI系统。
  • 线下整合:当前工作主要关注记忆的“在线”巩固过程,未来可以进一步研究如何模拟人脑的“离线”整合过程(如睡眠中的记忆重放),以实现更稳固的长期记忆。
  • 开发下一代AI:最终目标是构建能够真正实现自我完善、持续从经验中学习并适应新环境的下一代人工智能。

简评

嵌套学习范式是对深度学习核心思想的一次反思与重构,它跳出了单纯依靠堆叠更多层数来提升模型能力的传统思维定式,提出通过构建具有不同更新频率的嵌套优化层级来实现更深层次的计算和学习。这一视角不仅优雅地统一了模型架构与优化算法,并为持续学习的突破提供了一种实现思路,其长远影响值得期待。

参考链接:

[1] Introducing Nested Learning: A new ML paradigm for continual learning, https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

[2] Nested Learning: The Illusion of Deep Learning Architectures, https://abehrouz.github.io/files/NL.pdf

欢迎关注公众号“AI观读记”并持续获取AI前沿进展跟踪和解读