麻省理工学院的研究人员揭晓了“SEAL”(Self-Adapting LLMs)框架,这是朝着能够自我改进的人工智能迈出的新一步。该框架使大型语言模型(LLMs)能够通过强化学习生成“自我编辑”数据,并据此更新自己的权重。
人工智能自我改进的概念近期在研究界成为热点,涌现了大量相关论文,OpenAI首席执行官萨姆·奥尔特曼等知名人士也对自我进化智能系统的未来发表了看法。麻省理工学院这篇名为“自适应语言模型”的新论文,提出了SEAL框架,允许LLMs更新自身权重。这项发展被视为实现真正自我进化AI的又一重要步骤。
这篇于昨日发表的论文已在包括Hacker News在内的平台上引发了大量讨论。SEAL提出了一种方法,使LLM能够通过“自我编辑”生成自己的训练数据,并随后根据新的输入更新其权重。关键在于,这个自我编辑的过程是通过强化学习来学习的,其奖励机制与更新后模型的下游任务表现相关联。
理解SEAL:自适应语言模型 SEAL的核心思想是,当语言模型遇到新数据时,能够通过生成自己的合成数据,并通过自我编辑优化其参数,从而实现自我改进。模型的训练目标是利用其上下文中提供的数据,直接生成这些自我编辑。
这些自我编辑的生成是通过强化学习来学习的。当生成的自我编辑被应用后,能提升模型在目标任务上的表现时,模型就会获得奖励。因此,SEAL可以被理解为一个具有两个嵌套循环的算法:一个外部的强化学习循环,用于优化自我编辑的生成;一个内部的更新循环,使用生成的自我编辑通过梯度下降来更新模型。
这种方法可以看作是元学习的一个实例,其核心在于如何以元学习的方式生成有效的自我编辑。
一个通用框架 SEAL在单个任务实例(C,τ)上运行,其中C是与任务相关的上下文信息,而τ则定义了用于评估模型适应能力的下游评估。例如,在一个知识整合任务中,C可能是一篇需要整合进模型内部知识的文章,而τ则是关于该文章的一组问题。
给定C,模型生成一个自我编辑SE,然后通过监督微调来更新其参数:θ′←SFT(θ,SE)。使用强化学习来优化这个自我编辑的生成过程:模型执行一个动作(生成SE),根据LMθ′在τ上的表现获得奖励r,并更新其策略以最大化期望奖励。
研究人员发现,像GRPO和PPO这样的传统在线策略方法会导致训练不稳定。他们最终选择了ReST^EM,这是一种来自某机构论文的、基于过滤的行为克隆方法,更为简单。这种方法可以被视为一个期望最大化(EM)过程,其中E步骤从当前的模型策略中采样候选输出,M步骤则通过监督微调来强化那些获得正向奖励的样本。
论文还指出,虽然当前的实现使用单个模型来生成自我编辑并从中学习,但在“师生”设置下,这些角色可以被分开。
在特定领域实例化SEAL 麻省理工学院团队在两个特定领域实例化了SEAL:知识整合和少样本学习。
- 知识整合:目标是有效地将文章中的信息整合到模型的权重中。
- 少样本学习:这涉及模型在仅有极少样本的情况下适应新任务。
实验结果 在少样本学习和知识整合方面的实验结果都证明了SEAL框架的有效性。 在少样本学习中,使用Llama-3.2-1B-Instruct模型,SEAL显著提高了适应成功率,达到72.5%,相比之下,使用未经RL训练的基本自我编辑的模型成功率为20%,而未进行适应的模型成功率为0%。虽然仍低于“理想化测试时训练”基线,但这表明取得了实质性进展。 在知识整合方面,使用较大的Qwen2.5-7B模型来整合来自SQuAD文章的新事实,SEAL始终优于基线方法。使用基础Qwen-2.5-7B模型生成的合成数据进行训练已经显示出显著的改进,随后的强化学习进一步提升了性能。在外部RL迭代过程中,其准确率也显示出快速提升,通常在两次迭代内就能超过使用某机构模型生成数据的设置。 论文中的定性示例说明了强化学习如何导致生成更详细的自我编辑,从而带来性能的提升。
尽管前景广阔,研究人员也承认SEAL框架的一些局限性,包括与灾难性遗忘、计算开销和依赖于上下文的评估相关的方面。原始论文中详细讨论了这些内容。
原始论文:https://arxiv.org/pdf/2506.10943 项目网站:https://jyopari.github.io/posts/seal GitHub代码库:https://github.com/Continual-Intelligence/SEALFINISHED