暴雪与DeepMind合作的星际争霸2研究环境SC2LE终于发布了

403 阅读7分钟
原文链接: zhuanlan.zhihu.com
前言:撒花!开森!等待是值得的!终究忍不住,翻译了一下DeepMind的通稿以示庆贺。个人原创翻译,未经授权不同意转载。

DeepMind和暴雪发布基于星际争霸2的人工智能研究环境

DeepMind的科学使命,就是要通过开发能够解决复杂问题的系统,来拓展人工智能领域的新疆界!

译者注:装得一手好逼,服气。

为了实现这一愿景,我们设计智能个体,然后在一系列巨量的环境中测试它们的能力。这些环境包括了DeepMind实验室Atari围棋这些游戏。

用来测试智能个体的任务环境不能是专门为人工智能研究设计的,而需要人类能在同样的任务环境下玩的很好,这对于衡量智能个体的性能是非常重要的。这一愿意促成了我们(DeepMind)和暴雪娱乐的合作,现在我们一起兴奋地发布SC2LE,它是一个基于即时战略游戏星际争霸2的工具集,我们希望通过这些工具能够加速在即时战略游戏领域的人工智能研究。SC2LE包括:

  • 暴雪开发的机器学习API,该API可以让研究者和开发者进入游戏内部。同时还第一次发布了针对Linux系统的工具集。
  • 匿名的玩家游戏重放数据集。数据集的数量在接下来的几周将迅速增加。
  • DeepMind开发的开源工具集PySC2,该工具集可以让研究者轻松地使用暴雪提供的游戏特征层API。
  • 一系列简单的RL迷你游戏,研究者可以用它们来测试智能个体在具体任务下的表现。
  • 一篇介绍环境的联合发布论文,论文介绍了环境,报告了在迷你游戏、基于重放数据的有监督学习、与内置AI的天梯模式下完整1v1对战等情况下一些算法的基础表现。

图片版权归原文。星际争霸2是在2010年发布的一款科幻设定下的即时战略游戏。

译者注:咦?难度不是科幻设定下的恋爱养成游戏?毕竟女主种族变化那么大......

星际争霸1和星际争霸2均跻身于有史以来最成功的游戏之列。20年来,玩家们和电竞选手们为之征战不休。星际争霸1已经被ML和RL研究者用作研究平台,在AIIDE机器人竞赛中进行周年的比赛。星际争霸1的长盛不衰,一部分原因可能就在于其丰富多层次的游戏过程,这也使得它成为人工智能研究的理想环境。

译者注:商业互吹就是猛,暴雪听了美滋滋。商业无视就是狠,TorchCraft已哭晕

比如,游戏的目标就是击败对手,玩家必须在几个子目标之间取得平衡,比如采集资源或建造单位。还有,一局游戏的时长可以从几分钟到一小时不等,这意味着前期采取的动作在后期的收益将很小。最后,地图是部分可观测的,意味着智能个体必须把规划和记忆存储结合起来才有可能成功。

该游戏还有一些其他对于研究者充满吸引力的性质,比如大量的玩家每天在线玩游戏创造的数据池。这使得研究者可以得到一个高质量的游戏重放数据集来学习。同样也意味着有大量的对手可以和AI个体进行较量。

虽然相较于Atari游戏集,星际争霸的动作空间有300多个基本动作,看起来有点麻烦。从顶层来看,这些动作都是层级化的,可以修改和增加,其中很多动作都要获取屏幕上的某个点。即使是假设在84x84的屏幕上,也有将近10亿个可能的动作。


图片版权归原文。基于单位的选择,人类和个体可能的动作。

这次发布的工具使得研究者现在可以使用暴雪自己的工具来创建一些自己的任务和模型,以此来解决类似的挑战。

我们的PySC2环境封装器提供了一个对于RL研究者弹性好用的界面,可以顺畅地进行游戏。在本次初始发布中,我们将游戏分解成不同的“特征层”,游戏中的单位类型、血量和地图可见情况等元素是相互独立的,同时保留了游戏核心的视觉与空间元素。

视频1需要科学上网】

本次发布同时包含了一系列的“迷你游戏”-这些迷你游戏是将游戏分解为可管理的分块,可以测试智能个体在具体任务下的表现,比如移动镜头,拾取矿物,选取单位。我们希望研究者可以在不断更新增加的迷你游戏中测试他们的算法,相互之间能够比较和竞争。

图片归原文所有。简单的RL迷你游戏可以让研究者测试个体在具体任务上的表现。

我们初始的调查显示,我们的个体能够在这些迷你游戏上玩的不错,但是一旦上了完整游戏,即使是强如A3C算法,在与游戏内置AI的对战也只能完败。下面的视频就是例子,左边是刚开始训练的游戏个体,连让工人正常采矿都无法做到。右边是经过训练的个体,操作看起来有点意思了,但是一旦开始对战,也是一塌糊涂。要完成对战,需要深度增强学习和相关领域有更大突破

视频2同样需要科学上网】

现在我们知道的能够让个体玩得更好的技术是模仿学习(Imitation Learning)。感谢暴雪,这类方法的训练将会变得更加简单,因为暴雪同意发布基于星际争霸2天梯的大量的匿名玩家游戏重放数据。这不仅使得研究者可以使用有监督学习训练个体,还使得诸如序列预测和长效记忆等领域的研究升温。

我们希望,这些工具的发布能够让已有的基于星际争霸1的研究工作更进一步(就是不提TorchCraft,相爱相杀),并激励更多的深度增强学习研究者聚焦到这一前沿领域

我们其他AI社区接下来的探索发现。

--------------------------------------原文分割线--------------------------------------

译者反馈

一些看法:

  • 之前的Multi-agent研究平台(FAIR出的TorchCraft、阿里把OpenAI Gym和TorchCraft打包的那个啥环境,还有OpenAI那篇多体论文用的自己设计的平面游戏等)都可以歇息了。多体研究这下有了一个公共的竞技场,是骡子是马大家都可以在这个场上溜了;
  • DeepMind说了现有的算法解决迷你游戏(具体分解的子任务)OK,解决完整游戏就不行。什么是前沿,这就是前沿了;
  • 由于暴雪开放大量的的玩家游戏数据,模仿学习这一类有监督的方法肯定在前期能够有较大的帮助,但是个人的信仰还是主要充值在能够自主探索的方向上;
  • 可能大多数商业公司不会特别感兴趣,因为看不到商业收益,但是有潜在的军事价值大啊,大财主们会不会感兴趣呢。美利坚有“DRAPA”,军改后我们有了“中央军委军事科学研究指导委员会”,恩......就当是脑洞吧。
  • 专栏的几个小伙伴都对PySC2很性......不,兴奋!后续我们应该会在这一主题下发布更多的专栏文章,欢迎对这个方向感兴趣的小伙伴投稿交流