RAGEN：RL训练LLM推理新范式！开源强化学习框架让Agent学会多轮决策RAGEN是一个基于StarPO框架的开源

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎯 「RL训练LLM推理新范式！开源框架让Agent学会多轮决策，GitHub已标星2k+」

大家好，我是蚝油菜花。当大多数团队还在用单轮提示优化LLM时，这个来自学术界的强化学习框架正在重新定义Agent训练方式！你是否也遇到过这些AI训练困境——

今天要解剖的 RAGEN ，用三大突破解决这些痛点：

已有团队用它训练出能玩转Sokoban解谜的AI，金融领域正在测试自动报告生成——你的LLM准备好升级为「多轮推理大师」了吗？

🚀 快速阅读

RAGEN是专为LLM设计的强化学习训练框架。

RAGEN

RAGEN是开源的强化学习框架，用于在交互式、随机环境中训练大型语言模型（LLM）推理Agent。基于StarPO（State-Thinking-Action-Reward Policy Optimization）框架，通过多轮交互优化整个轨迹，支持PPO、GRPO等多种优化策略。

RAGEN通过MDP形式化Agent与环境的交互，引入渐进式奖励归一化策略，有效解决了多轮强化学习中的不稳定性。RAGEN的代码结构经过优化，分为环境管理器、上下文管理器和代理代理三个模块，方便扩展和实验。支持多种环境，如Sokoban、FrozenLake等，展示了良好的泛化能力。

bash scripts/setup_ragen.sh

若自动配置失败，可参考scripts/setup_ragen.md进行手动设置

基础配置文件为config/base.yaml，包含：

执行训练命令：

python train.py --config-name base

python -m ragen.llm_agent.agent_proxy --config-name <eval_config>

需在config/<eval_config>.yaml中设置模型和环境参数

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦