DeepMind登上Science：“和AI相比，人类都是猪队友”，团战称霸雷神之锤3AI组队，比人类战队的成绩好。 A

栗子发自凹非寺
量子位报道 | 公众号 QbitAI

AI组队，比人类战队的成绩好。

AI与人类组队，还是远超人类。

DeepMind为了训练强化学习AI的团队协作能力，选择了雷神之锤3竞技场的夺旗游戏。

从去年到今年，AI不断进化：

如今，把反应速度降到和人类水平，把标记准确率也降下来，胜率依然超过人类。

而AI学习的资源，也只有第一视角看到的游戏场景，以及比分，没有比人类获得更多信息。

当AI赢了柯洁，我们说AI不会合作；当AI赢了刀塔2世界冠军，我们说是冠军太鱼反应速度不公平。

但现在，我们只能看着DeepMind登上最新一期的Science。

然后，观察一下这些既懂得相互协作、又懂得和人类协作的AI，是怎样修炼出来的：

严酷的训练场

夺旗游戏 (Capture the Flag) 是这样的：

两队各有自己的大本营，目标是把己方的旗守在大本营，并拔掉对方的旗。

如果我是蓝方，看见敌人扛着蓝旗跑，就要用激光标记它。

这样，蓝旗会失而复得，敌人也会被送回它的老家。

五分钟内，哪一队拔掉对方更多的旗，这一队就赢了。

原本，雷神之锤3竞技场里只有5张地图；团队竞技场，也只有几十张地图。

为了让AI受到更加严格的训练，DeepMind随机生成了许多游戏里原本没有的地图：

就在这样的竞技场里，DeepMind同时训练了30只智能体，主要原理是LSTM。

这30只AI选手，一共打完了45万场游戏。

在这个过程中，还要不时淘汰掉表现不佳的AI，用顶尖AI选手的变异版本 (Mutations) 代替。这是进化算法的思路。

最终，选出最优秀的一只AI，取名For the Win (FTW) 。

除了碾压人类，还会利用游戏bug

然后，就该测试FTW的实力了。

首先是人机混战：DeepMind找来40个人类，与AI随机组队。

结果，AI选手的个人胜率远超人类：

研究人员发现，AI不但能同人类/AI协作，还形成了经典的团战策略：

比如，跟在队友身后，这样一旦与敌人交火，便能在人数上超过对手。

还有，在敌人大本营附近游荡，当队友拿到旗子的时候可以迅速接手往回跑。

除了这些人类常用套路之外，AI还发明了全新策略：

利用游戏里的一个bug，从背后向队友射击，能加快队友的速度。

看到现象之后，团队还想知道，AI为什么会修炼出这许多技能。

于是，研究了AI的行为模式，观察它们是如何理解比赛：

各种颜色的点点，分别代表：旗在阵地，队友扛走了敌方大旗，自己处在敌方阵地等等。

不同战况之下，AI的反应明显不同。安全和危险，分得清清楚楚。

调至同一起跑线

虽然，AI在初次混战中碾压人类，但DeepMind团队十分理智地以为：

AI之所以超过人类，主要优势一是反应速度快，二是射得准 (感觉哪里不对) 。

所以，团队手动把反应速度调慢到人类水平267毫秒左右，把80%的射击准确度降低到和人类相当的48%左右

然后重启比赛，这次是真正的人机对战。

人类战队分为普通人类 (Average Human) 和强大人类 (Strong Human) 。

结果，强大人类组成的战队，对战AI的胜率也仅有21%。

对人类来说，唯一值得庆幸的是：

当有AI加入人类战队，与纯AI战队互打的时候，人类战队的胜率终于超过了AI战队。

臆测一下，这个大概是说：人类是猪队友，吧？

Science论文传送门：
https://science.sciencemag.org/content/364/6443/859

Science报道传送门：
https://www.sciencemag.org/news/2019/05/artificial-intelligence-learns-teamwork-deadly-game-capture-flag

OpenAI博客传送门，内容刚刚更新：
https://deepmind.com/blog/capture-the-flag-science/

— 完 —

量子位 · QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

戳右上角「+关注」获取最新资讯↗↗

如果喜欢，请分享or点赞吧~比心❤