浅谈当前强化学习解决问题的时间尺度前段时间 DeepMind 和 OpenAI 都在视频游戏领域吸引了很多人的注意，而

前段时间 DeepMind 和 OpenAI 都在视频游戏领域吸引了很多人的注意，而 OpenAI bot 在 Dota 2 中完胜顶尖高手 Dendi 的比赛更是赚足了眼球，Dendi 两轮被K之后，直接说了句 'I give up'，非常淡定，还讲了一些可能的打败这个 bot 的策略，不愧是顶尖高手，对这个游戏的各种细节了然于胸。而 OpenAI 的 Greg Brockman 在现场说，明年这个时候，在这同一个比赛上，要挑战 5对5 的形式。我们注意到，现场只用了一台普通的台式计算机，据称是 Greg 自己平时使用的，但是模型训练并不是在这台机器上面，而是在服务器的 GPU 上。

上周 OpenAI 的官方博客发了一篇文章，讲了更多关于这个项目的细节。这是简化版的关于时间线的描述：

3月1日：第一次在 Dota 环境中使用经典强化学习方法得到测试结果
5月8日：拥有 1.5k MMR 积分的测试者称，他比机器人学习得更快
6月初：机器人打败了 1.5k MMR 积分的测试者
6月30日：机器人打败了大多数 3k MMR 积分的测试者
7月8日：在首回合比赛中，机器人几乎都会败给 7.5k MMR 积分的半职业测试者
8月7日：以 3-0 击败 Blitz (6.2k 积分，前职业选手)，2-1 击败 Pajkatt (8.5k 积分职业选手)，3-0 击败 CC&C (8.9k 积分职业选手)，他们都说 Sumail 可能有办法打败机器人
8月9日：以 10-0 击败 Arteezy (10k 积分，顶尖职业选手)，他说 Sumail 也许有办法打败机器人
8月10日：以 6-0 击败 Sumail (8.3k 积分，顶尖 1对1 职业选手)，他说这个机器人是不可战胜的，但是当 Sumail 与8月9日版的机器人对打时，他 2-1 取胜了
8月11日：以 2-0 击败 Dendi (7.3k 积分职业选手，前世界冠军，老派最爱)，另外当天的机器人对8曰10日的机器人有 60% 的胜率

机器人 TrueSkill 评分变化 (理论极限值是 101) ：

大约用了 5 个月的时间，这个游戏机器人从只能随机调用游戏 API 进行运动，到在 1对1 比赛中击败顶尖人类选手。这就是目前使用强化学习方法解决此类问题的时间尺度。

这类游戏特别适合使用强化学习方法让智能体自我进化，类似于人类的行为，它与“世界”，即环境的接口一般有三个——观察环境，采取行动，获得反馈。智能体被设计成能够根据反馈来不断强化其能力，它是一个针对特定目标只会进化，不会退化的系统。

在 OpenAI 这个 Dota 项目中，他们特意强调以下三点：

观察：机器人可获得的环境数据，和人类能看到的完全一致，全部来自 Dota 自带的机器人 API，机器人对游戏环境并不是全知全能
行动：机器人发出指令进行操作的速度保持在人类的平均水平，比如移动，攻击或使用道具
反馈：机器人接受的反馈信号和人一样，包括胜利，健康值和补刀 (last hits)

所以基本的原则，就是尽可能让机器人的输入输出跟人保持在相同范围内，而只是对决策系统进行考验。

John McCarthy 和 Marvin Minsky 在 1956 年提出 Artificial Intelligence 这个词，同时他们在漫长的职业生涯中不停探索人工智能可能的实现方式。最初的尝试是在国际象棋上，因为这是一个最典型的纯智力游戏，规则明确，结果简单，只是变化极多，其他大咖，比如 von Neumann，Shannon，Norbert Wiener，Alan Turing，Peter Norvig 等也对此十分感兴趣。直到本世纪第二个十年，机器智能才在棋类游戏上全面战胜人类顶尖高手，先是象棋，然后是围棋，扑克，再是视频游戏。计算能力的提升作用非常明显，这期间大约过了 60 年的时间。某些视频游戏有其特殊性，需要机器视觉的辅助，计算量很大，目前并不能完全说胜过人类。不过方法已经逐渐明确。

虽然有这些进展，但离我们通常理解的智能还是有些距离，大咖们也早早预见了这一点，提出了一些通往终极智能的路径。

McCarthy 在其论文《人工智能角度的一些哲学问题》中提出，可以将大脑看作是由有限个小型自动机 (automaton) 组成的大型组织，每个小型自动机可以进行一些比较简单、能够明确定义的决策，这样就有可能将复杂世界里的问题，拆解成一些较小较简单的问题加以解决，从而实现某种程度上的通用智能。因为我们对于智能的理解总是有局限的，将来很可能会出现生物活体与计算机混合的智能体，但目前在计算机上模拟解决某个特定问题的自动机，仍是最可行的途径。

粗略来看，从 60 年到 5 个月，解决问题的速度快了近 150 倍，在这个意义上，计算机大大延长了一个人的寿命。只要世界继续保持大范围的和平，未来五百年内，我们将有可能解决人类意识觉醒之后，几万年以来一直希望解决的一些问题。而互联网、特定领域人工智能带来的改变，我们已经在亲历，曾经只在宗教理想、文学幻想中存在的事情，都逐渐变成了现实。所以这是一个极其令人兴奋的时代，充满了种种不可思议的可能。So let's explore.