谷歌嵌套学习：突破 LLM 遗忘瓶颈，让 AI 实现人脑式持续进化NeurIPS 2025 上发表的论文“ 嵌套学习：深

谷歌嵌套学习：突破 LLM 遗忘瓶颈，让 AI 实现人脑式持续进化

翻自：research.google/blog/introd…

大家好，我是AI算法工程师七月，曾在华为、阿里任职，技术栈广泛，爱好广泛，喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。

关注公众号：量子基态，获取最新观察、思考和文章推送。
关注知乎：量子基态，获取最新观察、思考和文章推送。
关注CSDN：量子基态，获取最新观察、思考和文章推送。
关注稀土掘金：量子基态，获取最新观察、思考和文章推送。

我会在这里分享关于编程技术、独立开发、行业资讯，思考感悟等内容。爱好交友，想加群滴滴我，wx：swk15688532358，交流分享

如果本文能给你提供启发或帮助，欢迎动动小手指，一键三连 (点赞、评论、转发)，给我一些支持和鼓励，谢谢。

作者：七月来源：七月著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

Nested Learning

背景

在 AI 技术飞速迭代的今天，“灾难性遗忘” 始终是横亘在大模型持续进化路上的核心障碍 —— 就像人类刚学会减法就忘了加法，LLM 在学习新知识时，往往会牺牲对旧有技能的掌握，这让个人化 AI 助手的精准适配、企业级系统的实时知识更新等场景难以落地。而谷歌最新提出的 “嵌套学习”（Nested Learning）范式，正以全新的技术视角破解这一难题，让 AI 首次具备类似人脑的持续学习能力，该研究已成功入选 NeurIPS 2025，为大模型发展开辟了新赛道。

过去十年，机器学习（ML）取得了令人难以置信的进步，这主要是由强大的神经网络架构和用于训练它们的算法驱动的。然而，尽管大型语言模型（LLM）取得了成功，但一些基本挑战仍然存在，特别是在持续学习方面，即模型随着时间的推移积极获取新知识和技能而不忘记旧知识和技能的能力。

添加图片注释，不超过 140 字（可选）

在持续学习和自我完善方面，人脑是黄金标准。它通过神经可塑性进行适应——改变其结构以响应新体验、记忆和学习的非凡能力。如果没有这种能力，一个人就会局限于直接的环境（如顺行性遗忘症）。我们在当前的 LLM 中看到了类似的局限性：他们的知识仅限于输入窗口的直接上下文或他们在预训练期间学习的静态信息。

这种简单的方法，不断用新数据更新模型的参数，通常会导致“ 灾难性遗忘 ”（CF），即学习新任务会牺牲对旧任务的熟练程度。传统上，研究人员通过架构调整或更好的优化规则来对抗 CF。然而，长期以来，我们将模型的架构（网络结构）和优化算法（训练规则）视为两个独立的东西，这阻碍了我们实现真正统一、高效的学习系统。

在我们在 NeurIPS 2025 上发表的论文“ 嵌套学习：深度学习架构的错觉 ”中，我们介绍了嵌套学习，它弥合了这一差距。嵌套学习将单个 ML 模型视为一个连续的过程，而是一个相互关联的多级学习问题系统，这些问题同时进行优化。我们认为模型的架构和用于训练它的规则（即优化算法）从根本上是相同的概念;它们只是不同的优化“级别”，每个级别都有自己的内部信息流（“上下文流”）和更新率。通过认识到这种固有结构，嵌套学习为设计功能更强大的人工智能提供了一个新的、以前看不见的维度，使我们能够构建具有更深计算深度的学习组件，最终有助于解决灾难性遗忘等问题。

添加图片注释，不超过 140 字（可选）

我们通过概念验证、自我修改的架构来测试和验证嵌套学习，我们称之为“Hope”，该架构在语言建模方面实现了卓越的性能，并展示了比现有最先进模型更好的长上下文内存管理。

Nested Learning

嵌套学习表明，复杂的 ML 模型实际上是一组相互嵌套或并行运行的连贯、互连的优化问题。这些内部问题中的每一个都有自己的上下文流 ——它试图从中学习的一组独特的信息。

为了说明这种范式，我们研究了联想记忆的概念——根据另一件事映射和回忆一件事的能力（就像当你看到一张脸时回忆起一个名字一样）。

添加图片注释，不超过 140 字（可选）

我们表明，训练过程本身，特别是反向传播过程，可以建模为联想记忆。该模型学习将给定数据点映射到其局部误差值，该值用于衡量该数据点的“惊讶”或意外程度。
同样，根据之前的研究（例如，Miras），关键的架构组件，例如转换器中的注意力机制，也可以形式化为简单的联想记忆模块，这些模块学习序列中标记之间的映射。

通过定义更新频率，即每个组件的权重调整频率，我们可以将这些相互关联的优化问题按“级别”排序。这个有序集构成了嵌套学习范式的核心。

核心

由于嵌套学习将优化器（例如，基于动量的优化器）视为联想记忆模块，因此它允许我们将联想记忆角度的原理应用于它们。我们观察到，许多标准优化器依赖于简单的点积相似性（通过计算两个向量的相应组件的乘积之和来衡量两个向量的相似程度），其更新没有考虑不同数据样本之间的关系。通过将优化器的基本目标更改为更标准的损失指标，例如 L2 回归损失（回归任务中的一种常见损失函数，通过将预测值和真实值之间的差异的平方相加来量化误差），我们推导出了动量等核心概念的新公式，使它们对不完美的数据更具弹性。

添加图片注释，不超过 140 字（可选）

在标准 Transformer 中，序列模型充当短期记忆，保存直接上下文，而前馈神经网络充当长期记忆，存储预训练知识。嵌套学习范式将这一概念扩展到我们所说的“连续体记忆系统”（CMS），其中内存被视为模块的频谱，每个模块都以不同的特定频率更新。这为持续学习创造了一个更丰富、更有效的记忆系统。

自修改架构

作为概念验证，我们使用嵌套学习原则来设计 Hope，这是 Titans 架构的变体。Titans 架构是长期内存模块，它根据内存的惊喜程度来确定内存的优先级。尽管它们具有强大的内存管理功能，但它们只有两个级别的参数更新，从而实现一阶上下文学习。然而，Hope 是一种自我修改的循环架构，它可以利用无限级别的上下文学习，并且还通过 CMS 块进行增强以扩展到更大的上下文窗口。它本质上可以通过自我引用过程优化自己的内存，创建一个具有无限循环学习级别的架构。

效果

我们进行了实验来评估深度优化器的有效性以及 Hope 在语言建模、长上下文推理、持续学习和知识整合任务方面的表现。完整的结果可在我们的论文中找到。

我们的实验证实了嵌套学习、连续体记忆系统的设计和自我修改泰坦的力量。

在各种常用和公共语言建模以及常识推理任务上，与现代递归模型和标准转换器相比，Hope 架构表现出更低的困惑度和更高的准确性。

添加图片注释，不超过 140 字（可选）

Hope 在长上下文大海捞针（NIAH）下游任务中展示了卓越的内存管理，证明 CMS 提供了一种更高效、更有效的方式来处理扩展的信息序列。

嵌套学习范式代表了我们对深度学习理解的一大进步。通过将架构和优化视为一个单一的、连贯的嵌套优化问题系统，我们为设计开辟了新的维度，实现了多层叠加。由此产生的模型，例如 Hope 架构，表明采用原则性的方法统一这些要素可以带来更具表现力、更强大、更高效的学习算法。