为了在回答更难的问题时提高大语言模型的准确性,研究人员可以让模型花更多时间思考潜在的解决方案。但是,赋予大语言模型这种能力的常见方法为每个问题设定固定的计算预算,无论其复杂程度如何。这意味着大语言模型可能会在更简单的问题上浪费计算资源,或者无法处理需要更多推理的复杂问题。
为了解决这个问题,某机构的科研人员开发了一种更智能的方法,来分配大语言模型在解决问题时的计算努力。他们的方法使模型能够根据问题的难度以及每个部分解决方案可能导致正确答案的可能性,动态调整其计算预算。
研究发现,这种新方法使大语言模型在处理一系列难度不同的问题时,仅需使用现有方法一半甚至更少的计算量,就能达到相当的准确性。此外,该方法能让规模较小、资源消耗较少的大语言模型在复杂问题上表现与较大模型相当甚至更好。
通过提高大语言模型的可靠性和效率,尤其是在处理复杂推理任务时,这项技术可以减少生成式人工智能系统的能源消耗,并使大语言模型能够用于更多高风险和时间敏感的应用。
"推理的计算成本已迅速成为前沿模型提供商的主要瓶颈,他们正在积极寻找提高每次用户查询计算效率的方法。例如,最近的 GPT-5.1 版本强调了我们的论文提出的‘自适应推理’方法的有效性。通过赋予模型了解其所不知道之物的能力,可以让它们在最难的问题和最有希望的解决路径上花费更多计算资源,而在简单问题上使用更少的‘令牌’。这使得推理既更可靠,也高效得多,"某机构的某教授如是说。
用于深思的计算
一种称为"推理时扩展"的新方法,可以让大语言模型花更多时间来推理难题。使用推理时扩展,大语言模型可能会同时生成多个解决方案尝试,或探索不同的推理路径,然后从这些候选方案中选择最佳路径进行深入。
一个称为过程奖励模型的独立模型会对每个潜在解决方案或推理路径进行评分。大语言模型利用这些分数来识别最有希望的路径。典型的推理时扩展方法会为语言模型分配固定数量的计算资源来分解问题和推理步骤。
研究人员提出的方法,称为实例自适应扩展,则动态调整潜在解决方案或推理步骤的数量,其依据是在模型处理问题时,这些方案或步骤成功的可能性。
"这就是人类解决问题的方式。我们会想出一些部分解决方案,然后决定是否应该沿着其中任何一个继续深入,或者停下来修改,甚至回到上一步并从那里继续解决问题,"该研究的参与人员解释道。
为了实现这一点,该框架使用过程奖励模型来估计问题的难度,帮助大语言模型评估应该利用多少计算预算来生成和推理潜在解决方案。在模型推理过程的每一步,过程奖励模型都会审视问题和部分答案,并评估每个答案对于获得正确解决方案的前景如何。如果大语言模型更有信心,它可以减少需要探索的潜在解决方案或推理轨迹的数量,从而节省计算资源。
但研究人员发现,现有的过程奖励模型常常高估模型成功的概率。
克服过度自信
"如果我们仅仅信任当前的过程奖励模型,它们通常会高估成功的机会,那么我们的系统就会过于激进地削减计算预算。因此,我们首先必须找到一种方法来更好地校准过程奖励模型,以使推理时扩展更加高效和可靠,"论文的主要作者表示。
研究人员引入了一种校准方法,使过程奖励模型能够生成一系列概率分数,而不是单个值。通过这种方式,过程奖励模型可以生成更可靠的不确定性估计,更好地反映真实的成功概率。
借助一个经过良好校准的过程奖励模型,其实例自适应扩展框架可以利用概率分数有效减少计算量,同时保持模型输出的准确性。
当在一系列数学推理任务上将他们的方法与标准推理时扩展方法进行比较时,该方法在解决每个问题时使用的计算量更少,同时达到了相似的准确性。
"我们方法的妙处在于,这种适应是在解决问题的过程中实时动态发生的,而不是在过程开始时一次性完成,"另一位参与此项研究的科研人员表示。
未来,研究人员有兴趣将这项技术应用于其他领域,例如代码生成和人工智能智能体。他们还计划探索其过程奖励模型校准方法的其他用途,例如用于强化学习和微调。
"这项工作代表了迈向改变现状的重要一步:帮助智能体理解它们不知道什么,并建立持续自我改进的机制。这些能力至关重要,如果我们希望智能体能够安全运行、适应新情况,并在大规模应用中提供一致的结果,"某机构的某专家评论道。
此项工作得到了多个机构的支持与资助。FINISHED