AI 的“自我进化”:通过迭代部署提升大模型规划能力

69 阅读4分钟

在 AI 领域,我们一直在追求一个目标:让模型能够像人类一样,通过实践、反馈和总结来不断提升自己。最近的一篇重磅论文揭示了一种名为迭代部署(Iterative Deployment的机制,证明了大语言模型(LLM)可以通过“向自己学习”来实现规划能力的飞跃。

1. 论文概述:什么是迭代部署?

论文指出,当 LLM 被部署到现实世界中时,用户或外部系统会自动形成一个反馈环:正确的、高质量的输出会被采纳并分享,而错误的则被丢弃。如果将这些被验证正确的轨迹(Traces)收集起来,重新喂给模型进行微调,模型的能力会发生显著变化。

研究者在 Blocksworld(积木世界)火星车Sokoban等经典规划任务中验证了这一猜想 5。


2. 核心创新点与关键技术

A. 隐式强化学习(Implicit RL)的理论突破

这是本论文最具深度的发现:迭代部署本质上是在执行强化学习(RL)

  • 数学等价性:论文证明了,在二元奖励(对/错)下,对正确轨迹进行的有监督微调(SFT) ,其梯度更新方向与强化学习中的 REINFORCE 算法完全一致 。
  • 无需显式奖励模型:模型不需要训练复杂的奖励模型,而是将外部验证器的筛选行为直接作为“隐式奖励” 8888。

B. 基于效率的自动化策划(Curation)

为了防止模型学习到冗余信息,研究者引入了精密的筛选机制 :

  • 最优路径优先:如果同一任务有多个正确答案,系统仅保留规划步数最少的轨迹 。
  • 简洁推理优先:在步数相同时,优先选择推理 Token 更少的版本 。
  • 对抗模型崩溃:通过这种高质量筛选,模型不仅不会因为学习合成数据而退化,反而能实现性能的持续增长 。

3. 令人惊叹的实验结果

研究使用 Qwen3 4B 模型进行测试,结果表明 :

  • 性能翻倍:仅经过 5 代迭代,模型解决任务的数量就增加了 196% 到 401%
  • 涌现的泛化能力:后期生成的模型能够解决比初始模型复杂得多的任务(更长的规划路径),实现了分布外泛化
  • 推理效率稳定:与 DeepSeek-R1 等增加 CoT 长度的方法不同,迭代部署在性能提升的同时,并没有显著增加推理 Token 的数量 。

4. 实际应用场景

  • 软件工程:开发者在 IDE 中接受 AI 建议的代码并运行通过,这些“运行通过”的代码便是高质量的迭代训练数据 。
  • 智能体工作流(Agentic Workflows) :AI Agent 在执行复杂任务(如旅游规划)时的成功尝试,可以作为后续进化的养料 。
  • 自动化物流与调度:在仓储机器人路径规划、卫星任务编排等领域,通过物理规则验证器筛选最优轨迹 。

5. 最小可运行 Demo 逻辑

想要在本地模拟这个过程,你需要准备:

  1. 基础模型:Qwen3-4B-Thinking 。
  2. 验证器:VAL (PDDL 验证工具) 。
  3. 微调技术:LoRA 。

伪代码实现

Python

# 模拟一次迭代循环
for gen in range(1, 6):
    # 1. 生成轨迹 (Deployment)
    # 提示词包含领域描述和 2 个简单示例 [cite: 558, 559]
    trajectories = model.generate(prompts, temperature=0.6) 
    
    # 2. 外部验证 (Validation)
    # 使用 VAL 工具验证 PDDL 计划是否能达成目标 
    valid_data = [t for t in trajectories if VAL.check(t)]
    
    # 3. 数据筛选 (Curation)
    # 针对每个任务,只保留步数最短的最优解 [cite: 117, 171]
    curated_dataset = aggregate_and_filter_best(valid_data, history_data)
    
    # 4. 微调 (SFT)
    # 使用 LoRA 进行微调 [cite: 554, 573]
    # Rank=16, LR=1e-5, Epochs=2
    model = train_lora(model, curated_dataset) 

6. 总结与反思

这篇论文揭示了一个深刻的现实:AI 的进化不一定需要昂贵的人工标注,只要有一个清晰的验证逻辑合理的筛选机制,模型就能在部署中自发进化。

然而,这也带来了安全警示:迭代部署中的“隐式奖励”是不透明的,可能导致模型在追求效率的同时偏离安全对齐的初衷 。这是未来 AI 安全研究必须直面的挑战 。