UCSD推出PettingLLMs框架，多智能体协同训练提升LLM任务，达5.8倍来自加州大学圣地亚哥分校（UCSD）和

UCSD推出PettingLLMs框架，多智能体协同训练提升LLM任务，达5.8倍

大家好，我是AI算法工程师七月，曾在华为、阿里任职，技术栈广泛，爱好广泛，喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。

关注公众号：量子基态，获取最新观察、思考和文章推送。
关注知乎：量子基态，获取最新观察、思考和文章推送。
关注CSDN：量子基态，获取最新观察、思考和文章推送。
关注稀土掘金：量子基态，获取最新观察、思考和文章推送。

我会在这里分享关于编程技术、独立开发、行业资讯，思考感悟等内容。爱好交友，想加群滴滴我，wx：swk15688532358，交流分享

如果本文能给你提供启发或帮助，欢迎动动小手指，一键三连 (点赞、评论、转发)，给我一些支持和鼓励，谢谢。

作者：七月来源：七月著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

传送门

论文：huggingface.co/papers/2510… GitHub：github.com/pettingllms…

PettingLLMs框架

添加图片注释，不超过 140 字（可选）

随着大语言模型在医疗、编程、科研等多个领域的应用不断深入，研究人员已经发现，采用多智能体工作流能够在任务表现上取得显著的提升。然而，现有的LLM智能体训练框架大多仍然局限于单一智能体的训练，导致多智能体之间的协作优化仍然是一个亟待解决的问题。为此，PettingLLMs应运而生，旨在填补这一空白。

来自加州大学圣地亚哥分校（UCSD）和英特尔的研究团队，成功开发出了一种新的多智能体强化学习框架——PettingLLMs。这一创新的框架不仅首次实现了通用的多智能体“群体强化”，还显著提升了LLM工具调用能力，达到惊人的5.8倍。并且支持任意组合的多个LLM一起训练。

现有的LLM智能体训练框架大多局限于单智能体。PettingLLMs框架的独特之处在于，它首次实现了通用的多智能体的“群体强化”机制。

添加图片注释，不超过 140 字（可选）

该框架支持任意组合的多个LLM一起训练，解决了多智能体协作优化这一长期存在的难题。其核心在于，针对多智能体多轮环境中的prompt差异问题，框架采用了greedy-search的树状采样方法。每轮次每个agent形成一个节点进行K个分支，在分支以后选择此时reward最高的agent进行下一次分支，从而平衡了探索（exploration）与利用(exploitation)。

核心点

研究团队提出的PettingLLMs包含两大核心创新。

首先是基于贪心搜索的树状采样机制：每个轮次中，每个智能体作为节点进行K次分支探索，系统动态选择当前奖励值最高的智能体路径进行下一轮扩展。这种设计在保证组内回答批次量的同时，通过动态路径选择维持了优势计算的公平性。
其次是角色-全局双奖励函数：每个智能体的奖励既包含角色专属目标（如代码生成质量），也纳入全局任务指标（如系统整体通过率），确保个体能力进化与群体协作的平衡。

核心原理

该框架的核心算法是Group Relative Policy Optimization（GRPO），它的基本原理是通过多次采样生成一组候选回答，并在组内对这些回答进行评估，从而计算它们之间的相对优势。

在多智能体强化学习的进化过程中，研究者们还面临着一个策略问题：在何种任务下，让模型演化成不同角色的“专属模型”？又在何种任务下，让所有智能体共享一个“通用模型”会更优？为此，PettingLLMs框架搭建了一个异步分发训练系统，能够根据任务需求灵活配置独立模型资源池和共享模型资源池，从而实现两种不同的训练模式。

为了实现两种不同的训练模式，作者搭建了异步分发训练系统。

系统中的路由模块负责收集多智能体系统在环境中交互产生的轨迹数据。

在专属模型模式下，系统可以配置多个独立的模型资源池，分别更新不同的智能体模型。而在共享模型模式中，所有智能体的轨迹数据则被合并，并发送给同一个模型资源池进行更新。

这种灵活的配置使得该框架能够支持不同模型和agent之间的任意映射，也支持每个agent适配不同的lora的方式。此外，该框架还提供了详细的环境开发教程，已有的环境也已经包括了主流的agent任务比如数学、code、游戏等，这大大降低了多智能体强化学习的开发门槛。

添加图片注释，不超过 140 字（可选）

另一个关键技术突破是角色感知的双层奖励机制。

每个智能体不仅获得与其职责相关的专属奖励（如程序员智能体关注代码正确性），还共享反映整体任务完成度的全局奖励。

这种设计促使个体在精进专业能力的同时，主动与其他成员协同配合，最终形成高度互补且不可替代的协作关系。消融实验证明，若将已训练好的两个智能体角色互换，任务准确率会从96%骤降至6%，充分说明它们已演化出深度分工的能力。

通用的多智能体强化学习框架：PettingLLMs

基于该项研究，作者开源了通用的多智能体强化学习框架，使得多智能体强化学习训练开发变得敏捷、简洁、优雅。

在作者现有的系统上搭建环境开发只需要任务特有的agent的交互和奖励函数。同时，作者也给环境开发设计建立了详细的环境开发教程。
已有的环境也已经包括了主流的agent任务比如数学、code、游戏等。
该框架支持不同模型和agent之间的任意映射。也支持每个agent适配不同的lora的方式。

效果

实证研究覆盖Qwen3-1.7B与Qwen3-8B两个模型规模，涉及规划（推箱子、路径规划）、代码（LiveCodeBench、APPS竞赛集）、数学（AIME竞赛、奥林匹克基准）三大类任务。

在推箱子这种长规划任务中，通过AT-GRPO训练，两个agent都得到了强化，任务性能从14%提升至96%。

添加图片注释，不超过 140 字（可选）

研究团队在Qwen3-1.7B与Qwen3-8B两个规模上进行了大规模实验，涵盖规划、代码生成与数学推理三大类任务。实验结果表明：

在规划类任务中，Sokoban的成功率从14%提升至96%，Plan-Path的成功率则从47%提升至99.5%；

在代码生成任务中，LiveCodeBench的成绩提升了6.1%，APPS和CodeContests也分别提升了4.2%和7.0%；

添加图片注释，不超过 140 字（可选）

而在数学推理方面，AIME24和AIME25的成绩也分别提升了9.0%和17.9%。

更值得关注的是，训练过程中智能体间的协作效率持续提升。平均完成任务所需的对话轮次不断减少，学习曲线同步上升，显示出系统内部正逐渐形成高效的沟通与分工机制。

添加图片注释，不超过 140 字（可选）

将训练成熟的智能体组合强行调换角色，任务准确率从 96% 骤降至 6%，证明多智能体习得的是高度互补的专属能力，而非通用化技能，这与双奖励函数的设计目标高度契合。