MIT的SEAL框架：让大语言模型实现自我更新麻省理工学院研究人员提出SEAL框架，通过强化学习让大语言模型能够生成自我

麻省理工学院的研究人员揭晓了“SEAL”（Self-Adapting LLMs）框架，这是朝着能够自我改进的人工智能迈出的新一步。该框架使大型语言模型（LLMs）能够通过强化学习生成“自我编辑”数据，并据此更新自己的权重。

人工智能自我改进的概念近期在研究界成为热点，涌现了大量相关论文，OpenAI首席执行官萨姆·奥尔特曼等知名人士也对自我进化智能系统的未来发表了看法。麻省理工学院这篇名为“自适应语言模型”的新论文，提出了SEAL框架，允许LLMs更新自身权重。这项发展被视为实现真正自我进化AI的又一重要步骤。

这篇于昨日发表的论文已在包括Hacker News在内的平台上引发了大量讨论。SEAL提出了一种方法，使LLM能够通过“自我编辑”生成自己的训练数据，并随后根据新的输入更新其权重。关键在于，这个自我编辑的过程是通过强化学习来学习的，其奖励机制与更新后模型的下游任务表现相关联。

理解SEAL：自适应语言模型 SEAL的核心思想是，当语言模型遇到新数据时，能够通过生成自己的合成数据，并通过自我编辑优化其参数，从而实现自我改进。模型的训练目标是利用其上下文中提供的数据，直接生成这些自我编辑。

这些自我编辑的生成是通过强化学习来学习的。当生成的自我编辑被应用后，能提升模型在目标任务上的表现时，模型就会获得奖励。因此，SEAL可以被理解为一个具有两个嵌套循环的算法：一个外部的强化学习循环，用于优化自我编辑的生成；一个内部的更新循环，使用生成的自我编辑通过梯度下降来更新模型。

这种方法可以看作是元学习的一个实例，其核心在于如何以元学习的方式生成有效的自我编辑。

一个通用框架 SEAL在单个任务实例（C，τ）上运行，其中C是与任务相关的上下文信息，而τ则定义了用于评估模型适应能力的下游评估。例如，在一个知识整合任务中，C可能是一篇需要整合进模型内部知识的文章，而τ则是关于该文章的一组问题。

给定C，模型生成一个自我编辑SE，然后通过监督微调来更新其参数：θ′←SFT(θ，SE)。使用强化学习来优化这个自我编辑的生成过程：模型执行一个动作（生成SE），根据LMθ′在τ上的表现获得奖励r，并更新其策略以最大化期望奖励。

研究人员发现，像GRPO和PPO这样的传统在线策略方法会导致训练不稳定。他们最终选择了ReST^EM，这是一种来自某机构论文的、基于过滤的行为克隆方法，更为简单。这种方法可以被视为一个期望最大化（EM）过程，其中E步骤从当前的模型策略中采样候选输出，M步骤则通过监督微调来强化那些获得正向奖励的样本。

论文还指出，虽然当前的实现使用单个模型来生成自我编辑并从中学习，但在“师生”设置下，这些角色可以被分开。

在特定领域实例化SEAL 麻省理工学院团队在两个特定领域实例化了SEAL：知识整合和少样本学习。

知识整合：目标是有效地将文章中的信息整合到模型的权重中。
少样本学习：这涉及模型在仅有极少样本的情况下适应新任务。

实验结果在少样本学习和知识整合方面的实验结果都证明了SEAL框架的有效性。在少样本学习中，使用Llama-3.2-1B-Instruct模型，SEAL显著提高了适应成功率，达到72.5%，相比之下，使用未经RL训练的基本自我编辑的模型成功率为20%，而未进行适应的模型成功率为0%。虽然仍低于“理想化测试时训练”基线，但这表明取得了实质性进展。在知识整合方面，使用较大的Qwen2.5-7B模型来整合来自SQuAD文章的新事实，SEAL始终优于基线方法。使用基础Qwen-2.5-7B模型生成的合成数据进行训练已经显示出显著的改进，随后的强化学习进一步提升了性能。在外部RL迭代过程中，其准确率也显示出快速提升，通常在两次迭代内就能超过使用某机构模型生成数据的设置。论文中的定性示例说明了强化学习如何导致生成更详细的自我编辑，从而带来性能的提升。

尽管前景广阔，研究人员也承认SEAL框架的一些局限性，包括与灾难性遗忘、计算开销和依赖于上下文的评估相关的方面。原始论文中详细讨论了这些内容。

原始论文：https：//arxiv.org/pdf/2506.10943 项目网站：https：//jyopari.github.io/posts/seal GitHub代码库：https：//github.com/Continual-Intelligence/SEALFINISHED