超越暴力穷举:为什么 LoongFlow 是 OpenEvolve 的“思考型”进化版

27 阅读6分钟

从随机突变到因果推理:深度解析下一代进化智能体

继 DeepMind 发布 AlphaEvolve 之后,AI 社区对 进化智能体(Evolutionary Agents)这一概念产生了浓厚兴趣。其前景令人神往:智能体不仅能执行代码,还能随着时间的推移不断自我改进,进化出人类程序员可能从未构想过的解决方案。

一段时间以来,OpenEvolve 一直是该概念在开源实现方面的标杆。它采用“适者生存”的方法——生成随机的代码突变并保留最好的结果。然而,试图将其用于复杂现实任务的开发者往往会碰壁。这一过程计算成本高昂、不稳定,且经常陷入局部最优解。

LoongFlow 登场。

LoongFlow 不仅仅将自己定位为一个“进化”框架,更是一个会“思考和学习”的智能体。通过从随机突变转向结构化的 PES(计划-执行-总结) 范式,它宣称能在其他框架失败的领域达到专家级的表现。

​编辑

在本文中,我们将把 LoongFlow 与 OpenEvolve 进行直接对比,看看其架构是否名副其实。

1. 核心理念:“盲目突变” vs. “专家直觉”

这两个框架的根本区别在于它们如何进行迭代。

OpenEvolve:暴力穷举法

OpenEvolve 大体遵循 AlphaEvolve 中的经典进化算法模式。它依赖于随机变异和选择。

  • 机制:生成代码 -> 评估代码 -> 保留精英 -> 再次突变。
  • 缺陷:正如 LoongFlow 的分析所指出的,这类似于“盲目尝试”。它缺乏关于前一次尝试为何失败的反馈回路。这就像一个人试图通过猜随机数来破解保险箱。

LoongFlow:PES 范式

LoongFlow 引入了 PES(Plan-Execute-Summary,计划-执行-总结) 思考范式。它模仿了人类科学家进行研究的方式:

  • Plan(计划) :智能体不进行猜测,而是分析任务和历史记录来构建蓝图。
  • Execute(执行) :它以灵活的错误修正来实施代码,而不仅仅是靠运气。
  • Summary(总结) :这是游戏规则的改变者。智能体执行“多维度复盘”,总结哪些有效、哪些无效,并将这些信息存入结构化记忆中。

​编辑

类比:

如果说 OpenEvolve 是托马斯·爱迪生测试 6,000 种材料来寻找灯泡灯丝(穷举搜索),那么 LoongFlow 就是一位现代物理学家,通过分析材料属性,仅需几次尝试就能推导出最佳候选材料。

2. 基准对决:效率与稳定性

理念虽好,但实际效果如何?LoongFlow 团队在圆包装问题(Circle Packing problem,一个标准的数学优化挑战)上,将 LoongFlow 与 OpenEvolve 和 ShinkaEvolve 进行了正面交锋。

我们进行了两个独立的实验,以评估在不同约束条件下的性能:进化效率(解决问题的速度)和 稳定性(成功的持续性)。

实验 1:效率与稳定性测试

  • 设置:DeepSeek-R1–0528 模型,24小时时间限制。

  • 指标:我们要测量的是最佳得分(越高越好)以及达到该得分所需的迭代次数(越低越好)。

  • 关键发现

    • 巨大的效率差距:LoongFlow 的速度呈指数级增长。它平均仅需 258 次生成调用即可解决问题,而 OpenEvolve 需要近 4 倍的调用次数(927 次),且在三次运行中有两次未能收敛。
    • 稳定性:LoongFlow 实现了 100% 的成功率,持续获得 0.99 以上的分数。OpenEvolve 则高度不稳定——在一次运行中达到了 0.99,但在其他运行中,尽管运行了 1,000 次迭代,却停滞在 0.95 或 0.96。

​编辑

实验 2:资源受限测试

  • 设置:Gemini-3-Pro 模型,严格限制为 100 次迭代。

  • 目标:观察在计算预算紧张时,哪个智能体学习得最快。

  • 关键发现

    • 打破天花板:LoongFlow 是唯一打破“1.0”归一化得分障碍的框架,并且在每一次试验中都做到了这一点。
    • 快速收敛:当 OpenEvolve 和 ShinkaEvolve 耗尽了全部 100 次迭代预算却仍未完全解决问题时,LoongFlow 平均仅用 39 次生成调用就完成了任务。

​编辑

结论:质量胜于数量

数据揭示了像 OpenEvolve 这样的传统进化智能体的一个致命缺陷:它们依赖于暴力穷举。它们通过向墙上扔成千上万种变体来看看哪个能粘住来获得结果。

相比之下,LoongFlow 展示了因果推理能力。因为它的 Summary(总结)模块会分析前一次尝试失败的原因,所以它不会浪费算力去重复错误。结果就是产生了一个不仅更聪明,而且运行成本显著降低的智能体。

3. 幕后机制:LoongFlow 获胜的原因

三个架构选择解释了 LoongFlow 的卓越性能:

A. 进化树与全局记忆 (Evolution Tree & Global Memory)

OpenEvolve 经常患有“健忘症”——它保留了最好的代码,却丢失了失败的上下文。LoongFlow 利用进化树结合 MAP-Elites(多维表型精英档案)。这种结构保持了解决方案的多样性,防止智能体陷入局部最优解(钻进死胡同)。它允许智能体通过玻尔兹曼选择(Boltzmann selection)平衡探索(exploration)与利用(exploitation),在解空间中进行“跳跃”。

B. 基于角色的子智能体 (Role-Based Sub-Agents)

LoongFlow 不仅仅是要求一个大语言模型(LLM)“做得更好”。它将认知负荷分配给特定的角色:

  • Planner(规划者) :专为战略推理和吸收领域先验知识而设计。
  • Executor(执行者) :专注于代码生成和合约验证。
  • Summary(总结者) :致力于溯因反思——分析分数为何提高或下降。

C. 领域泛化(超越数学题)

虽然 OpenEvolve 与数学谜题紧密相关,但 LoongFlow 的架构旨在适应更广泛的应用,特别是机器学习工程。它包含一个专门的“ML Evolve Agent”(机器学习进化智能体),将机器学习工作流分解为规范的六阶段结构(加载 -> 交叉验证 -> 特征工程 -> 训练 -> 集成 -> 工作流)。这种架构使 LoongFlow 在 Kaggle 基准测试(MLE-bench)中赢得了 22 枚金牌,证明它不仅能处理干净的数学问题,也能处理现实世界数据的混乱性。

结论:“会思考”的智能体

“盲目”进化智能体的时代正在结束。虽然 OpenEvolve 作为代码突变的重要概念验证发挥了作用,但缺乏结构化推理限制了其在复杂的长视距任务中的应用。

LoongFlow 代表了下一步。通过注入“元认知”层——即计划、执行和反思的能力——它将智能体从一个随机猜测者转变为领域专家。

对于那些希望构建能够解决复杂问题(如算法发现或自动化 ML 流水线)的智能体,且不想在随机尝试上烧掉数百万 token 的开发者来说,LoongFlow 似乎是更好的选择。

  • GitHub 仓库: https://github.com/baidu-baige/LoongFlow
  • 技术报告: arXiv:2512.24077