前段时间 DeepMind 和 OpenAI 都在视频游戏领域吸引了很多人的注意,而 OpenAI bot 在 Dota 2 中完胜顶尖高手 Dendi 的比赛更是赚足了眼球,Dendi 两轮被K之后,直接说了句 'I give up',非常淡定,还讲了一些可能的打败这个 bot 的策略,不愧是顶尖高手,对这个游戏的各种细节了然于胸。而 OpenAI 的 Greg Brockman 在现场说,明年这个时候,在这同一个比赛上,要挑战 5对5 的形式。我们注意到,现场只用了一台普通的台式计算机,据称是 Greg 自己平时使用的,但是模型训练并不是在这台机器上面,而是在服务器的 GPU 上。
上周 OpenAI 的官方博客发了一篇文章,讲了更多关于这个项目的细节。这是简化版的关于时间线的描述:
- 3月1日:第一次在 Dota 环境中使用经典强化学习方法得到测试结果
- 5月8日:拥有 1.5k MMR 积分的测试者称,他比机器人学习得更快
- 6月初:机器人打败了 1.5k MMR 积分的测试者
- 6月30日:机器人打败了大多数 3k MMR 积分的测试者
- 7月8日:在首回合比赛中,机器人几乎都会败给 7.5k MMR 积分的半职业测试者
- 8月7日:以 3-0 击败 Blitz (6.2k 积分,前职业选手),2-1 击败 Pajkatt (8.5k 积分职业选手),3-0 击败 CC&C (8.9k 积分职业选手),他们都说 Sumail 可能有办法打败机器人
- 8月9日:以 10-0 击败 Arteezy (10k 积分,顶尖职业选手),他说 Sumail 也许有办法打败机器人
- 8月10日:以 6-0 击败 Sumail (8.3k 积分,顶尖 1对1 职业选手),他说这个机器人是不可战胜的,但是当 Sumail 与8月9日版的机器人对打时,他 2-1 取胜了
- 8月11日:以 2-0 击败 Dendi (7.3k 积分职业选手,前世界冠军,老派最爱),另外当天的机器人对8曰10日的机器人有 60% 的胜率
机器人 TrueSkill 评分变化 (理论极限值是 101) :
大约用了 5 个月的时间,这个游戏机器人从只能随机调用游戏 API 进行运动,到在 1对1 比赛中击败顶尖人类选手。这就是目前使用强化学习方法解决此类问题的时间尺度。
这类游戏特别适合使用强化学习方法让智能体自我进化,类似于人类的行为,它与“世界”,即环境的接口一般有三个——观察环境,采取行动,获得反馈。智能体被设计成能够根据反馈来不断强化其能力,它是一个针对特定目标只会进化,不会退化的系统。
在 OpenAI 这个 Dota 项目中,他们特意强调以下三点:
- 观察:机器人可获得的环境数据,和人类能看到的完全一致,全部来自 Dota 自带的机器人 API,机器人对游戏环境并不是全知全能
- 行动:机器人发出指令进行操作的速度保持在人类的平均水平,比如移动,攻击或使用道具
- 反馈:机器人接受的反馈信号和人一样,包括胜利,健康值和补刀 (last hits)
所以基本的原则,就是尽可能让机器人的输入输出跟人保持在相同范围内,而只是对决策系统进行考验。
John McCarthy 和 Marvin Minsky 在 1956 年提出 Artificial Intelligence 这个词,同时他们在漫长的职业生涯中不停探索人工智能可能的实现方式。最初的尝试是在国际象棋上,因为这是一个最典型的纯智力游戏,规则明确,结果简单,只是变化极多,其他大咖,比如 von Neumann,Shannon,Norbert Wiener,Alan Turing,Peter Norvig 等也对此十分感兴趣。直到本世纪第二个十年,机器智能才在棋类游戏上全面战胜人类顶尖高手,先是象棋,然后是围棋,扑克,再是视频游戏。计算能力的提升作用非常明显,这期间大约过了 60 年的时间。某些视频游戏有其特殊性,需要机器视觉的辅助,计算量很大,目前并不能完全说胜过人类。不过方法已经逐渐明确。
虽然有这些进展,但离我们通常理解的智能还是有些距离,大咖们也早早预见了这一点,提出了一些通往终极智能的路径。
McCarthy 在其论文《人工智能角度的一些哲学问题》中提出,可以将大脑看作是由有限个小型自动机 (automaton) 组成的大型组织,每个小型自动机可以进行一些比较简单、能够明确定义的决策,这样就有可能将复杂世界里的问题,拆解成一些较小较简单的问题加以解决,从而实现某种程度上的通用智能。因为我们对于智能的理解总是有局限的,将来很可能会出现生物活体与计算机混合的智能体,但目前在计算机上模拟解决某个特定问题的自动机,仍是最可行的途径。
粗略来看,从 60 年到 5 个月,解决问题的速度快了近 150 倍,在这个意义上,计算机大大延长了一个人的寿命。只要世界继续保持大范围的和平,未来五百年内,我们将有可能解决人类意识觉醒之后,几万年以来一直希望解决的一些问题。而互联网、特定领域人工智能带来的改变,我们已经在亲历,曾经只在宗教理想、文学幻想中存在的事情,都逐渐变成了现实。所以这是一个极其令人兴奋的时代,充满了种种不可思议的可能。So let's explore.