《RL强化学习工具清单》RL工具选型指南|持续更新

45 阅读10分钟

开篇:RL强化学习工具,如何为实践者铺路?

在《星际争霸》中训练多智能体协作、让NPC学会与玩家动态博弈、教会机器人理解复杂物理环境……这些看似科幻的场景,正因强化学习(Reinforcement Learning, RL)技术的突破逐步成为现实。

在游戏中,压榨(Exploiter)智能体(红色)发现了一种「Tower Rush」策略,从而打败了核心智能体(蓝色)。

随着训练的进行,新的核心智能体(绿色)已经学会拖农民和其他单位来对抗压榨智能体(红色)的「Tower Rush」。

然而,技术落地的道路从不平坦:

  • 工具迭代快:框架每年新增数十个,新旧生态交替频繁;

  • 信息碎片化:官网文档、论文代码、社区教程散落各处,系统性整合缺失;

  • 选型成本高:从学术实验到工业部署,不同场景对工具的性能、扩展性需求差异巨大。

这份《强化学习工具清单》的初衷,正是为实践者搭建一座“问题→工具”的桥梁

1、不造轮子:精选经过学界、工业界验证的主流平台,标注维护状态与适用边界;

2、不止于罗列:附源码、论文与实测案例,助你快速验证工具匹配度;

3、不设终点:建立开源更新机制,邀请开发者共同补充工具评测维度(如训练效率、API友好性)。

为何值得你停留?
  • 如果你刚接触RL:可跳过重复造轮子的迷茫期,直接从成熟工具中感受算法魅力;

  • 如果你专注智能体开发:可横向对比框架特性(如PARL的工业级并行 vs OpenRL的NLP适配),找到最优技术组合;

  • 如果你关心技术风向:从Meta停更ReAgent转向Pearl、Gym迁移至Gymnasium等事件,洞察RL工程化趋势。

我们如何共同迭代?

  • 🔍 查漏:若发现工具特性描述偏差,请以Issue/PR提交实测结果;

  • 🛠️ 深挖:对特定框架(如腾讯开悟的MOBA训练技巧)有实战需求?评论区发起投票,优先解读;

  • 🌍 扩列:欢迎提交未被收录的优质工具(需附应用案例),共建RL技术地图。

(下文将按国内平台→国际平台→退役框架→学习资源 等展开,并提供「维护状态」「场景适配度」快速索引表)

国内强化学习平台

百度PARL

官方介绍:

“源于产业实践的开源深度学习平台,飞桨致力于让深度学习技术的创新与应用更简单。”

可复现性保证。我们提供了高质量的主流强化学习算法实现,严格地复现了论文对应的指标。

大规模并行支持。框架最高可支持上万个CPU的同时并发计算,并且支持多GPU强化学习模型的训练。

可复用性强。用户无需自己重新实现算法,通过复用框架提供的算法可以轻松地把经典强化学习算法应用到具体的场景中。

良好扩展性。当用户想调研新的算法时,可以通过继承我们提供的基类可以快速实现自己的强化学习算法。

简介:基于PaddlePaddle的强化学习框架,支持大规模并行训练和多智能体协作,适用于工业级应用场景。

官网:www.paddlepaddle.org.cn

学习资料:

PaddlePaddle官方教程:www.paddlepaddle.org.cn/tutorials

PARL GitHub仓库:github.com/PaddlePaddl…

开悟(AI Arena)

官方介绍:

依托「王者荣耀」游戏测试环境,腾讯开悟多智能体强化学习大赛为研究者开放游戏数据集及游戏核心集群,并提供评估工具、计算平台以及其他研究支持服务,以测试并提升AI在不同MOBA对战场景下的应用水平。

简介:腾讯AI Lab与《王者荣耀》联合开发的多智能体决策平台,支持复杂博弈与大规模并行训练。

官网:aiarena.tencent.com

学习资料:

AI Arena相关仓库和组件的文档:aiarena.tencent.com/hok/doc/

AI Arena GitHub仓库:github.com/tencent-ail…

其他相关资料: arxiv论文网站:arxiv.org/abs/2209.08…

arxiv发表的论文PDF 版:arxiv.org/pdf/2209.08…

资料 2:ar5iv.labs.arxiv.org/html/2209.0…

OpenRL

简介:通用强化学习框架,支持单/多智能体、自然语言任务训练,集成PPO、SAC等主流算法。

官网:github.com/OpenRL-Lab/…

学习资料:

官方学习资料:openrl-docs.readthedocs.io/zh/latest/

GitHub相关资料:github.com/OpenRL-Lab/…

国外强化学习平台

DeepMind Lab

官方介绍:

DeepMind Lab is a 3D learning environment based on id Software's Quake III Arena via ioquake3 and other open source software.

DeepMind Lab 是基于 id Software 的 Quake III Arena 以及 ioquake3 等开源软件的 3D 学习环境。

DeepMind Lab provides a suite of challenging 3D navigation and puzzle-solving tasks for learning agents. Its primary purpose is to act as a testbed for research in artificial intelligence, especially deep reinforcement learning.

DeepMind Lab 提供了一系列具有挑战性的 3D 导航和解谜任务,用于训练代理。它的主要目的是作为人工智能研究,尤其是深度强化学习的实验平台。

简介:3D强化学习研究平台,支持复杂视觉与物理环境,用于智能体导航与多任务学习。

官网:github.com/deepmind/la…

学习资料:

官方GitHub Wiki:github.com/deepmind/la…

arxiv论文网站:arxiv.org/abs/1612.03…

arxiv发表的论文PDF 版:arxiv.org/pdf/1612.03…

OpenAI Gym

注⚠️:似乎有了 新的分支Gym库Gymnasium,我会确认好后,进一步进行更新。

简介:标准强化学习测试平台,提供经典控制、Atari游戏等多样化环境。

官网:github.com/openai/gym

学习资料:

官方文档:www.gymlibrary.dev/

正在查找可以访问的资料库

Stable-Baselines3

官方介绍:

Stable Baselines3 (SB3) is a set of reliable implementations of reinforcement learning algorithms in PyTorch. It is the next major version of Stable Baselines. Stable Baselines3 (SB3) 是基于 PyTorch 的强化学习算法可靠实现的集合,它是 Stable Baselines 的后续版本。

简介:高质量强化学习算法实现库(PPO、DQN等),兼容OpenAI Gym环境。

官方仓库:github.com/DLR-RM/stab…

学习资料:

官方文档:stable-baselines3.readthedocs.io

相关论文 PDF 版:jmlr.org/papers/volu…

ViZDoom

官方介绍:

ViZDoom allows developing AI bots that play Doom using only visual information (the screen buffer). It is primarily intended for research in machine visual learning, and deep reinforcement learning, in particular. ViZDoom 允许使用仅视觉信息(屏幕缓冲区)开发玩 Doom 的 AI 机器人,主要用于机器视觉学习和深度强化学习的研究。

简介:基于《毁灭战士》的视觉强化学习平台,适合研究视觉输入下的决策问题。

官方仓库:github.com/Farama-Foun…

学习资料:

官方文档:vizdoom.farama.org/

天授(Tianshou)

官方介绍:

Tianshou (天授) is a reinforcement learning platform based on pure PyTorch. Unlike existing reinforcement learning libraries, which are mainly based on TensorFlow, have many nested classes, unfriendly API, or slow-speed, Tianshou provides a fast-speed framework and pythonic API for building the deep reinforcement learning agent. 天授(Tianshou)是一个基于纯 PyTorch 的强化学习平台。不同于主要基于 TensorFlow 的现有库,这些库具有许多嵌套类、不友好的 API 或速度较慢,天授提供了一个快速的框架和 Python 风格的 API 来构建深度强化学习代理。

简介:模块化深度强化学习框架,支持PPO、DDPG等算法,注重代码简洁与高效。

官方仓库:github.com/thu-ml/tian…

学习资料:

官方文档:tianshou.readthedocs.io

不再更新的强化学习工具框架:

ReAgent(曾名为“Horizon”)【已停止维护】

注意⚠️:

ReAgent is officially archived and no longer maintained. For latest support on production-ready reinforcement learning open-source library, please refer to Pearl - Production-ready Reinforcement Learning AI Agent Library, by the Applied Reinforcement Learning team @ Meta.

ReAgent 已正式归档且不再维护。如需生产级开源强化学习库的最新支持,请参阅 Meta 应用强化学习团队开发的 Pearl - 生产级强化学习 AI 代理库。

官方介绍:

ReAgent is an open source end-to-end platform for applied reinforcement learning (RL) developed and used at Facebook. ReAgent is built in Python and uses PyTorch for modeling and training and TorchScript for model serving. The platform contains workflows to train popular deep RL algorithms and includes data preprocessing, feature transformation, distributed training, counterfactual policy evaluation, and optimized serving.

ReAgent 是一个开源的端到端平台,用于应用强化学习(RL),由 Facebook 开发和使用。该平台使用 Python 编写,并利用 PyTorch 进行建模和训练,使用 TorchScript 进行模型服务。它包含用于训练流行深度 RL 算法的工作流,包括数据预处理、特征转换、分布式训练、反事实策略评估和优化服务。

简介:应用型强化学习平台,优化推荐系统与广告投放场景中的策略训练。

官方仓库:github.com/facebookres…

RLlab【已停止维护】

简介:学术研究导向的强化学习工具包,兼容OpenAI Gym,支持自定义环境。

官方仓库:github.com/rll/rllab/t…

学习资料:

官方文档:rllab.readthedocs.io/en/latest

补充学习资料

EasyRL(学习资料)

简介:

李宏毅老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂,他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩 Atari 游戏的例子来讲解强化学习算法。此外,为了教程的完整性,我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。

本教程也称为“蘑菇书”,寓意是希望此书能够为读者注入活力,让读者“吃”下这本蘑菇之后,能够饶有兴致地探索强化学习,像马里奥那样愈加强大,继而在人工智能领域觅得意外的收获。

资料仓库:github.com/datawhalech…

学习资料:

在线文档:datawhalechina.github.io/easy-rl

书籍《Easy RL:强化学习教程》(含PDF下载)需要 PDF 版可 4️⃣ ✉️ 我。

未来可拓展[也欢迎大家一起讨论方向]