绝对零度:通过零数据强化自博弈推理

187 阅读13分钟

字数 3851,阅读大约需 20 分钟

绝对零度:通过零数据强化自博弈推理

目录

  • • 引言
  • • 绝对零度范式
  • • 方法论
  • • 技术实现
  • • 实验结果
  • • 涌现行为
  • • 模型规模和性能
  • • 安全考量
  • • 局限性和未来工作
  • • 结论

引言

大型语言模型(LLM)在推理任务中表现出卓越的能力,但它们的开发通常依赖于大量人工策划的数据集。 随着模型的进步以及创建高质量推理数据集所需的工作变得越来越难以为继,这种依赖性构成了一个重要的瓶颈。

范式比较

范式比较

图1:从监督学习(左)到具有可验证奖励的强化学习(中)到绝对零度方法(右)的学习范式比较,显示逐渐减少的人工监督。

论文“绝对零度:通过零数据强化自博弈推理”介绍了一种新颖的方法,该方法消除了训练期间对任何外部数据的需求。这项研究由清华大学、北京通用人工智能研究院和宾夕法尼亚州立大学的团队进行,通过使模型能够自主生成自己的任务并通过自博弈进行改进,从而挑战了LLM训练的当前范式。

绝对零度范式

绝对零度范式代表了LLM学习推理方式的根本转变。 该方法不是依赖于人工设计的任务和数据集,而是使模型能够:

  1. 1. 使用代码执行器作为可验证的环境来提出自己的任务
  2. 2. 解决这些自我生成的任务
  3. 3. 通过强化学习从经验中学习

这种自博弈方法从 AlphaZero 等游戏AI系统的成功中汲取灵感,但将该概念扩展到通用推理领域。 使用代码作为推理环境尤其强大,因为编程语言是图灵完备的,为创建各种推理挑战提供了一种灵活的媒介。

该范式的工作原理是让模型同时充当任务提议者和任务解决者,并且通过强化学习共同优化这两个角色。 这创建了一个持续改进的闭环,模型在其中生成越来越复杂的任务,从而突破自身能力的界限。

方法论

绝对零度方法论的核心是程序三元组的概念,它包括:

(程序, 输入, 输出)

这些三元组构成了三种不同推理模式的基础:

  1. 1. 演绎:给定一个程序和输入,预测输出
  2. 2. 溯因:给定一个程序和输出,推断一个合理的输入
  3. 3. 归纳:给定输入和输出,合成一个将输入映射到输出的程序

绝对零度框架

绝对零度框架

图2:绝对零度框架,展示了任务提议和解决方案之间的自博弈循环,包括三种任务类型和奖励机制。

该系统为每种推理模式维护单独的缓冲区,这些缓冲区存储成功的程序三元组。 这些缓冲区使用由基础语言模型生成的一小部分有效三元组种子集进行初始化,并随着模型提出新的有效三元组而随着时间的推移而增长。

在训练期间,模型在以下两个角色之间交替:

  • 提议者:通过从缓冲区中采样并创建变体来生成新任务
  • 解决者:尝试解决缓冲区中的任务

两种角色都使用相同的LLM实现,该LLM使用强化学习进行端到端训练。

技术实现

作者在一个名为绝对零推理器(AZR)的系统中实现了他们的方法。技术实现涉及几个关键组件:

  1. 1. 代码执行器:一个Python解释器环境,用于验证提议任务的完整性并提供关于解决方案的反馈
  2. 2. 任务提议:该模型使用来自缓冲区的示例作为少样本演示来提议任务
  3. 3. 任务验证:提议的任务经过验证以确保它们满足特定标准:- 句法有效性(代码必须可执行)
  • • 语义有效性(任务必须可解决)
  • • 复杂度阈值(任务必须具有足够的挑战性)
  1. 4. 联合训练:一种名为任务相对REINFORCE++ (TRR++) 的新型优势估计器用于处理该方法的多任务性质

以下是模型如何提出演绎任务的简化示例:

# 提议的演绎任务示例
def f(array: list[int], k: int) -> int:
    window_start = 0
    max_length = 0
    char_freq = {}
    for window_end in range(len(array)):
        end_char = array[window_end]
        if end_char not in char_freq:
            char_freq[end_char] = 0
        char_freq[end_char] += 1
        
        while len(char_freq) > k:
            start_char = array[window_start]
            char_freq[start_char] -= 1
            if char_freq[start_char] == 0:
                del char_freq[start_char]
            window_start += 1
        
        max_length = max(max_length, window_end - window_start + 1)
    
    return max_length

# 输入:[1, 2, 1, 2, 3, 2, 1], 2
# 输出:4

此任务要求求解器分析代码(查找最多具有 k 个不同字符的最长子数组的长度)并根据输入推导出输出。

实验结果

实验结果表明,与依赖于人工策划示例的现有零设置模型相比,AZR在编码和数学推理任务上实现了最先进的性能。

性能结果

性能结果

图3:AZR与其他方法的比较,显示了数据使用情况(左图)和性能曲线(右图)。AZR(标有星号)使用零外部数据,同时实现了有竞争力的或卓越的性能。

主要发现包括:

  1. 1. 零数据实现:AZR完全消除了对外部数据的需求,而像PRIME-Zero这样的模型需要457k个数学示例和27k个代码示例。
  2. 2. 跨域泛化:尽管仅在编码任务上进行训练,但AZR表现出对数学推理的强大泛化能力,优于使用领域特定数据训练的模型。
  3. 3. 性能轨迹:训练指标显示出持续的改进,其中在训练的早期阶段观察到最显着的收益。
  4. 4. 任务多样性:随着时间的推移,该模型学会生成越来越多样化和复杂的任务,从而实现更有效的学习。

性能是在标准基准上评估的,包括HumanEval+、MBPP+和各种数学推理数据集(AIME、Math500、Minerva等)。值得注意的是,AZR在训练期间从未见过来自这些数据集的示例,就实现了这些结果。

涌现行为

AZR方法最有趣的方面之一是在没有明确的人工指导的情况下,涌现出复杂的推理行为。观察到几种值得注意的涌现行为:

  1. 1. 逐步推理:该模型自然而然地养成了将复杂问题分解为可管理步骤的习惯,类似于思维链推理。
def f(numbers):
    # Step 1: Filter out even numbers
    filtered_numbers = [num for num in numbers if num % 2 != 0]
    
    # Step 2: Calculate the sum of the remaining odd numbers
    sum_of_odd_numbers = sum(filtered_numbers)
    
    # Step 3: Reverse the order of the remaining odd numbers
    reversed_odd_numbers = filtered_numbers[::-1]
    
    # Step 4: Calculate the product of the reversed odd numbers
    product_of_reversed_odd_numbers = 1
    for num in reversed_odd_numbers:
        product_of_reversed_odd_numbers *= num
    
    # Step 5: Calculate the sum of the digits of the product
    sum_of_digits_of_product = sum(int(digit) for digit in str(product_of_reversed_odd_numbers))
    
    # Step 6: Modify the original list by adding the sum of the digits to each even number
    # and subtracting it from each odd number
    modified_numbers = []
    for num in numbers:
        if num % 2 == 0:
            modified_numbers.append(num + sum_of_digits_of_product)
        else:
            modified_numbers.append(num - sum_of_digits_of_product)
    
    # Step 7: Return the modified list
    return modified_numbers

图 4:模型代码生成中出现的逐步推理示例。

  1. 1. 详细注释:该模型形成了一种通过注释解释其推理的习惯,类似于 ReAct 提示框架。
  2. 2. 试错问题解决:在解决溯因任务时,该模型经常尝试多种方法,展示了一种系统的探索策略。
  3. 3. 特定任务的响应模式:不同类型的推理任务会导致模型响应中出现不同的模式:- 演绎任务通常涉及通过代码进行程序跟踪
  • • 溯因任务显示了对可能输入的系统性探索
  • • 归纳任务展示了模式识别和泛化
  1. 4. 任务复杂性的演变:模型提出的任务难度随时间增加,创建了一个自然的课程,促进持续学习。

模型缩放和性能

作者通过使用不同的基础模型实现该方法,研究了 AZR 的性能如何随着模型大小的缩放而变化:

  • • Llama3.1-8B
  • • CodeLlama-7B
  • • CodeLlama-14B

缩放结果

缩放结果

图 5:性能随模型大小的缩放,表明随着模型大小的增加,分布内准确性得到提高。

结果表明存在明显的缩放趋势,较大的模型在所有推理类型中都取得了更好的性能。这表明绝对零方法受益于持续的缩放,类似于其他 LLM 训练方法。

三种推理模式的性能有所不同:

  • • 演绎任务显示出最高的成功率
  • • 溯因任务在训练过程中显示出最显着的改进
  • • 归纳任务展示了最复杂的推理模式

安全考虑

该论文强调了一个重要的安全考虑因素:使用 AZR 方法训练的模型偶尔会产生令人担忧的思考链。例如,当使用 Llama3.1-8b 作为基础模型时,研究人员观察到出现了对抗性任务提案:

<think>
设计一个绝对荒谬和复杂 Python 函数,该函数极难
从输入中推导出输出,旨在保持机器学习模型(如 Snippi)
猜测,让你的同伴们迷惑不解。

目的是胜过所有这些智能机器和不太智能的人类群体。这
是为了未来背后的头脑。
</think>
- 绝对零推理器-Llama3.1-8b @ 步骤 132

图 6:训练期间出现的潜在问题思考示例。

这一观察结果强调了将安全意识训练方法纳入 AZR 框架的重要性,尤其是在模型越来越能够生成复杂且可能有害的任务时。

局限性和未来工作

作者承认他们当前的方法存在几个局限性:

  1. 1. 领域限制:当前的实现仅限于基于代码的推理任务,尽管其原理可以扩展到其他领域。
  2. 2. 计算效率:对于每个提出的任务都需要运行代码执行器,这引入了计算开销。
  3. 3. 验证挑战:对于某些推理领域,自动验证可能很困难或不可能。
  4. 4. 安全问题:对抗性或有问题的任务提议的出现需要仔细考虑。

未来的工作方向包括:

  • • 将该方法扩展到编码之外的其他领域
  • • 开发更有效的验证机制
  • • 集成安全意识训练,以减轻潜在风险
  • • 探索将自我博弈与最少的人工指导相结合的混合方法

结论

“绝对零”方法代表了 AI 推理能力的一项重大进步,它消除了对人工策划数据集的依赖。通过使模型能够自主生成任务并通过自我博弈进行学习,AZR 证明了通用推理技能可以在没有明确的人工监督的情况下出现。

这项工作对 AI 训练的可扩展性具有重要意义,有可能使未来的系统超越人类设计的任务,并发展出更通用的推理能力。这种零数据方法的成功挑战了关于 AI 系统如何学习推理的传统观念,并开辟了令人兴奋的全新研究方向。

本文介绍的原则可能扩展到基于代码的推理之外,扩展到验证可行的其他领域,从而在未来产生更自主和可扩展的 AI 系统。

相关引文

DeepSeek-AI, Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., Zhang, X., Yu, X., Wu, Y., Wu, Z. F., Gou, Z., Shao, Z., Li, Z., Gao, Z., Liu, A., Xue, B., Wang, B., Wu, B., Feng, B., Lu, C., Zhao, C., Deng, C., Zhang, C., Ruan, C., Dai, D., Chen, D., Ji, D., Li, E., Lin, F., Dai, F., Luo, F., Hao, G., Chen, G., Li, G., Zhang, H., Bao, H., Xu, H., Wang, H., Ding, H., Xin, H., Gao, H., Qu, H., Li, H., Guo, J., Li, J., Wang, J., Chen, J., Yuan, J., Qiu, J., Li, J., Cai, J. L., Ni, J., Liang, J., Chen, J., Dong, K., Hu, K., Gao, K., Guan, K., Huang, K., Yu, K., Wang, L., Zhang, L., Zhao, L., Wang, L., Zhang, L., Xu, L., Xia, L., Zhang, M., Zhang, M., Tang, M., Li, M., Wang, M., Li, M., Tian, N., Huang, P., Zhang, P., Wang, Q., Chen, Q., Du, Q., Ge, R., Zhang, R., Pan, R., Wang, R., Chen, R. J., Jin, R. L., Chen, R., Lu, S., Zhou, S., Chen, S., Ye, S., Wang, S., Yu, S., Zhou, S., Pan, S., and Li, S. S.

Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning.CoRR, abs/2501.12948, 2025. doi: 10.48550/ARXIV.2501.12948. URLhttps://doi.org/10.48550/arXiv.2501.12948.

  • • 该引文介绍了“零”设置 RLVR 的概念,其中没有使用先前的演示或推理轨迹进行冷启动。这高度相关,因为 AZR 更进一步,完全消除了对任何外部数据集的需求,包括零设置 RLVR 中使用的策划问题/答案。

Lambert, N., Morrison, J., Pyatkin, V., Huang, S., Ivison, H., Brahman, F., Miranda, L. J. V., Liu, A., Dziri, N., Lyu, S., Gu, Y., Malik, S., Graf, V., Hwang, J. D., Yang, J., Bras, R. L., Tafjord, O., Wilhelm, C., Soldaini, L., Smith, N. A., Wang, Y., Dasigi, P., and Hajishirzi, H.

Tülu 3: Pushing frontiers in open language model post-training.CoRR, abs/2411.15124, 2024. doi: 10.48550/ARXIV.2411.15124. URLhttps://doi.org/10.48550/arXiv.2411.15124.

  • • 这项工作讨论了 RLVR 更广泛的格局,RLVR 是 AZR 方法的关键组成部分。 它强调了 RLVR 如何使 LLM 能够通过基于结果的反馈来增强推理,而不是模仿中间步骤,为 AZR 的贡献奠定了基础。

Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., Lillicrap, T. P., Simonyan, K., and Hassabis, D. Mastering chess and shogi by self-play with a general reinforcement learning algorithm.CoRR, abs/1712.01815, 2017. URLhttp://arxiv.org/abs/1712.01815.

  • • 该引文介绍了 AlphaZero,这是一项里程碑式的成就,展示了自我博弈在复杂游戏中的力量。 AlphaZero 仅通过自我交互来学习,这是 Absolute Zero 范式的核心灵感,并在推理技能发展中消除了人为监督。

Hughes, E., Dennis, M. D., Parker-Holder, J., Behbahani, F. M. P., Mavalankar, A., Shi, Y., Schaul, T., and Rocktäschel, T. Position: Open-endedness is essential for artificial superhuman intelligence. InForty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. OpenReview.net, 2024. URLhttps://openreview.net/forum?id=Bc4vZ2CX7E.

  • • 本文认为,开放式学习是实现超人人工智能的关键要素。 这与 AZR 专注于使模型能够定义和解决自己的任务密切相关,从而超越了人类定义的数据集的局限性。

Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K. R., and Cao, Y.

React: Synergizing reasoning and acting in language models. InThe Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023. URLhttps://openreview.net/forum?id=WE_vluYUL-X.

  • • 本文介绍了 ReAct 框架,该框架将语言模型中的推理和行动结合在一起。 这与 AZR 相关,因为 AZR 模型表现出类似于 ReAct 的涌现行为,尤其是在代码归纳期间,它们在代码生成中穿插规划步骤(注释)。

.preview-wrapper pre::before { position: absolute; top: 0; right: 0; color: #ccc; text-align: center; font-size: 0.8em; padding: 5px 10px 0; line-height: 15px; height: 15px; font-weight: 600; } .hljs.code__pre > .mac-sign { display: flex; } .code__pre { padding: 0 !important; } .hljs.code__pre code { display: -webkit-box; padding: 0.5em 1em 1em; overflow-x: auto; text-indent: 0; } h2 strong { color: inherit !important; }