小型模型如何通过合成数据在AGI竞赛中夺冠

6 阅读2分钟

一项被视为衡量通用人工智能进展的关键竞赛结果近日揭晓。两位来自某中心的Kaggle大师团队研究人员在Kaggle ARC Prize 2025的公开排行榜上夺得第一。他们的解决方案名为NVARC,在极具挑战性的ARC-AGI-2基准测试上取得了27.64%的分数。

核心突破在于方法论:该团队没有依赖庞大的模型或暴力搜索,而是采用了合成数据测试时训练严谨的工程化三种策略。由于Kaggle比赛对运行时间有严格限制,大型语言模型复杂的推理方法无法适用。因此,NVARC团队转变策略:将所有复杂的推理工作转移到离线的合成数据管道中完成,转而训练能够在评估阶段快速运行的小型模型。

技术方法详解

合成数据生成:团队通过分阶段谜题生成、概念分解,并利用Qwen等透明、可重复研究的开放权重模型进行微调,构建了一个多样化的ARC风格任务合成语料库。开放模型让团队能够检查和调整权重、分享方法,并快速迭代推理系统,将前沿能力转化为广泛可用、可协作的基础。

模型训练与优化:最终模型只需要识别和适应模式,而非执行完整的程序搜索逻辑。测试时训练技术可以从每个谜题极少量的示例中学习其具体特性,这一技术已成为在ARC-AGI上取得领先性能的关键。结果是构建了一个紧凑、高性价比的模型集成,其性能超越了更庞大的系统,并在ARC-AGI-2上设立了新标杆。

工具链支持:为成功构建这一获胜方案,团队利用了某中心的NeMo工具套件,包括用于可扩展强化学习的NeMo RL,以及用于简化合成数据生成流程的NeMo Skills。

关于ARC-AGI基准测试

ARC-AGI基准测试用于衡量人工智能系统进行抽象推理并从极少示例中泛化的能力,其任务是基于网格的视觉谜题。ARC-AGI-2是一个更难的更新版本,移除了与公开训练数据的重叠,旨在抵抗捷径和暴力记忆,是对真正系统性抽象能力的更严格测试。该基准已被视为衡量人工智能通用推理真实进展的最受关注的指标之一。

这项成果展示了如何通过合成数据和自适应学习推动推理能力向前发展,为在有限的计算和时间预算下实现高效、经济的通用人工智能风格推理提供了新思路。