大语言模型的动态推理计算分配新方法

3 阅读3分钟

某研究机构的研究人员开发了一种更智能的方法,让大语言模型在解决问题时能够动态分配计算量。该方法使模型能够根据问题的难度以及每个部分解决方案导向正确答案的可能性,动态调整其计算预算。

研究人员发现,他们的新方法使大语言模型在处理一系列难度不同的问题时,仅需使用现有方法一半的计算量,就能达到相当的准确率。此外,该方法还允许资源需求较小的模型在复杂问题上表现与大型模型一样好,甚至更好。

通过提高大语言模型的可靠性和效率,尤其是在它们处理复杂推理任务时,这项技术可以降低生成式人工智能系统的能耗,并使其能够应用于更多高风险和时效性强的场景。

推理时的计算分配

一种名为“推理时扩展”的最新方法,允许大语言模型花更多时间来思考难题。使用推理时扩展,大语言模型可以一次生成多个解决方案尝试,或探索不同的推理路径,然后从中选择最佳方案继续推进。另一个被称为“过程奖励模型”(PRM)的独立模型,会对每个潜在解决方案或推理路径进行评分。大语言模型利用这些分数来识别最有希望的方案。

典型的推理时扩展方法会分配固定的计算量给大语言模型来分解问题和推理步骤。而研究人员的方法,称为“实例自适应扩展”,则根据模型在处理问题时,各个部分解决方案成功的可能性,动态调整潜在解决方案或推理步骤的数量。

为此,该框架使用PRM来估计问题的难度,帮助大语言模型评估应该使用多少计算预算来生成和推理潜在解决方案。在模型推理过程的每一步,PRM都会审视问题和部分答案,评估每个答案对于得出正确解决方案的价值。如果模型置信度较高,它就可以减少需要追求的潜在解决方案或推理轨迹的数量,从而节省计算资源。

克服过度自信

研究人员发现,现有的PRM常常高估模型的成功概率。如果仅仅信任当前的PRM,系统会过于激进地减少计算预算。因此,研究人员首先找到了一种方法来更好地校准PRM,以使推理时扩展更高效和可靠。

研究人员引入了一种校准方法,使PRM能够生成一系列概率分数,而不是单一数值。这样,PRM就能创建更可靠的不确定性估计,更好地反映真实的成功概率。借助校准良好的PRM,其“实例自适应扩展”框架可以利用概率分数有效地减少计算量,同时保持模型输出的准确性。

在一系列数学推理任务上,将他们的方法与标准的推理时扩展方法进行比较时,该方法在解决每个问题时使用的计算量更少,同时达到了相似的准确率。未来,研究人员有兴趣将这项技术应用于其他领域,如代码生成和人工智能代理。他们还计划探索PRM校准方法的其他用途,例如用于强化学习和微调。FINISHED