Procgen和MineRL竞赛

277 阅读5分钟

我们很高兴地宣布,OpenAI正在与AIcrowd卡内基梅隆大学DeepMind共同组织两项NeurIPS 2020竞赛,使用Procgen BenchmarkMineRL。我们在内部非常依赖这些环境进行强化学习的研究,我们期待着看到社区在这些具有挑战性的比赛中取得的进展。

Procgen竞赛

报名参加Procgen

Procgen竞赛的重点是提高强化学习的样本效率和泛化能力。参赛者将尝试使用固定数量的环境互动来最大化代理人的性能。代理人将在Procgen Benchmark中已经公开发布的16个环境中的每一个环境中进行评估,以及在专门为本次竞赛创建的四个秘密测试环境中进行评估。通过对这么多不同环境的性能进行汇总,我们可以获得高质量的指标来判断基础算法。关于每轮比赛的细节的更多信息可以在这里找到。

由于所有的内容都是按程序生成的,每个Procgen环境都内在地要求代理人概括地处理以前从未见过的情况。因此,这些环境对代理人在许多不同环境中的学习能力提供了一个强有力的测试。此外,我们设计的Procgen环境是快速和简单使用的。计算资源有限的参与者将能够很容易地重现我们的基线结果并运行新的实验。我们希望这将使参赛者能够快速迭代新的方法,以提高RL的采样效率和泛化能力。

MineRL竞赛

报名参加MineRL

最近,许多著名的人工智能成功,如AlphaStar、AlphaGo和我们自己的OpenAI Five,利用深度强化学习在连续决策任务中达到人类或超人类水平的表现。迄今为止,这些对最先进技术的改进需要指数级增长的计算和模拟器样本,因此,很难[1]将许多这些系统直接应用于环境样本昂贵的现实世界问题。一个众所周知的降低环境样本复杂度的方法是利用人类的先验和所需行为的示范。

MineRL 2019年竞赛第一名的作品的效果图,得到了一个铁镐。

为了进一步促进这个方向的研究,我们正在联合举办MineRL 2020竞赛,旨在促进算法的发展,这些算法可以有效地利用人类的示范,大幅减少解决复杂、分层和稀疏环境所需的样本数量。为此,参赛者将竞争开发出能够从原始像素中获得钻石的系统,该系统仅使用MineRL模拟器的800万个样本,并在一台GPU机器上进行4天的训练。参赛者将获得MineRL-v0数据集(网站论文),这是一个超过6000万帧人类演示的大规模集合,使他们能够利用专家的轨迹来尽量减少他们的算法与Minecraft模拟器的互动。

这次比赛是MineRL 2019年比赛的后续,在这次比赛中,顶级团队的代理能够在这种极其有限的计算和模拟器互动预算下获得一个铁镐(比赛的倒数第二个目标)。从这个角度来看,最先进的标准强化学习系统需要在大型多GPU系统上进行数以亿计的环境交互才能实现同样的目标。今年,我们预计竞争对手将进一步推动最先进的技术。

为了保证参赛者开发出真正有效的样本算法,MineRL竞赛组织者在严格限制硬件、计算和模拟器互动的情况下,从头开始训练顶级团队的决赛模型。MineRL 2020竞赛还采用了一种新颖的措施,以避免手工工程特征和对该领域的过度拟合解决方案。关于竞赛结构的更多细节可以在这里找到。


鸣谢

我们在AIcrowd的合作伙伴在这些比赛的发展中发挥了重要作用,他们创造了许多比赛的基础设施,确保了计算资源,并提供了宝贵的技术支持。此外,我们还要感谢我们在Preferred Networks的合作伙伴,他们在为MineRL竞赛开发基线方面发挥了重要作用。MineRL竞赛向我们的赞助商和DeepMind、微软和英伟达的协办方表示感谢。

Procgen竞赛是OpenAI和AIcrowd之间的合作。组织团队由Sharada Mohanty、Karl Cobbe、Jyotish Poonganam、Shivam Khandelwal、Christopher Hesse、Jacob Hilton、John Schulman和William H. Guss组成。

MineRL竞赛是OpenAI、卡内基梅隆大学、MineRL实验室、Google DeepMind、Preferred Networks、微软和AIcrowd之间的合作。首席组织者是William H. Guss,组织团队包括Brandon Houghton, Stephanie Milani, Nicholay Topin, John Schulman, Oriol Vinyals, Ruslan Salakhutdinov, Noboru Sean Kuno, Sam Devlin, Crissman Loomis, Keisuke Nakata, Shinya Shiroshita, Avinash Ummadisingu, and Mario Ynocente Castro。


脚注


  1. 由于需要大量的样本,直接应用是不可能的,但Sim2Real和数据增强技术可以缓解直接对现实世界的动态进行采样的需要。