你也能与AlphaGo谈笑风生:AlphaGo教学工具上线,2万多变化,37万多步棋

216 阅读8分钟
原文链接: click.aliyun.com

eb02f939a0419794f7e4100e63c85fb8c1641a97

博原文如下

樊麾在微博表示:

“大家好

AlphaGo 教学工具终于上线了。

教学工具共有两万多个变化,三十七万多步棋组成,通过AlphaGo的视角,分析并建议围棋开局的诸多下法。同时每步棋AlphaGo都会给出自己的胜率分析,希望AlphaGo对围棋的独特理解可以给我们一些启发。

下边的几个图是我从万千变化图中发现比较有冲击力的几个,类似的变化图有很多很多,大家可以自己找找

本教学工具使用的版本是 AlphaGo Master。具体信息可以在主页上看到,工具设有包括中文简体在内的多个语言。

顺序由左往右,图1 :原来二路虎不见得好! 图2 :对付迷你中国流的新办法!图3 :这个! 图4 : 小林流也不是只有大飞挂! 图5 : 原来这里还可以飞!图6 :妖刀定式!

温馨提示 :打开时请耐心等待几秒。

祝大家玩得开心”

DeepMind资深研究员黄士杰

黄士杰博士:

大家好,很高兴向大家宣布,AlphaGo教学工具上线了。

这是一个AlphaGo教学的开局库,相关细节如下:

  1. 本教学工具总共收录了约6000个近代围棋史上主要的开局变化,从23万个人类棋谱中收集而来。
  2. 所有盘面都有AlphaGo评价的胜率,以及AlphaGo推荐的下法。
  3. 所有AlphaGo的胜率与推荐下法,AlphaGo都思考将近10分钟(1000万次模拟)。
  4. 每一个开局变化,AlphaGo都固定延伸20步棋。加上AlphaGo的下法,整个教学工具约有2万个分支变化,37万个盘面。

受限于投稿《自然》杂志的时程,本教学工具使用的版本是AlphaGo Master。希望大家享受AlphaGo教学工具中的创新下法,也能从中有所收获。

AlphaGo、AlphaGo zero、AlphaZero

2016年Google在Nature上发表基于深度学习算法的围棋程序AlphaGo,AlphaGo在古老的围棋比赛中以4:1的高分击败了世界大师级冠军李世石,从此一炮而红,并且二度登上《Nature》杂志封面。

许多专家认为,人类至少提前十年实现了这一壮举。对于 DeepMind以及世界围棋界而言,最激动人心的是AlphaGo在博弈过程中所表现出来的创造力,甚至有时候它的招数对古老的围棋智慧都造成了挑战。

不到一年之后,2017年Google的DeepMind实验室再度开发了基于强化学习的新一代围棋程序,称为AlphaGo zero,AlphaGo Zero不依赖任何对局复盘和实战数据进行训练,仅用3天就击败 AlphaGo Lee、仅用40天就击败 AlphaGo Master的围棋人工智能。

12月份,DeepMind推出AlphaZero,从AlphoGo Zero 到AlphaZero只是少了一个词“围棋”(Go), 但是背后却代表着Hassabis将和他的DeepMind继续朝着“创造解决世界上一切问题的通用人工智能”这一目标道路上迈出了巨大的一步。

Alpha Zero与前面几种程序相比更具通用性。除了围棋以外,它在国际象棋和日本将棋上的造诣也已经超越了人类水平。因此Alpha Zero 也从名字里去掉了围棋(Go)一词。DeepMind在arXiv发表论文表示其开发的通用强化学习程序AlphaZero,使用蒙特卡洛树搜索(MCTS)和深度神经网络,和强大的算力,同时在国际象棋,日本将棋和围棋中战胜各自领域的最强代表。而且这一切都是通过自我对弈完成的,在训练中除了游戏规则,不提供任何额外的领域知识。4小时击败最强国际象棋AI、2小时击败最强将棋AI,8小时击败李世石版AlphaGo,连最强围棋AI AlphaGo Zero也不能幸免:训练34小时的AlphaZero胜过了训练72小时的AlphaGo Zero。

论文简介

1. 2016年google在Nature上发表基于深度学习算法的围棋程序AlphaGo,文章《Masteringthe game of Go with deep neural networks and tree search》。

8f4853a08447f805c73a675045d291675cb38180

论文地址:https://www.nature.com/articles/nature16961

摘要:因为围棋巨大的搜索空间和对棋盘位置和走子精确评估的困难,在很长时间里围棋被视作人工智能最具有挑战性的传统游戏。在这里我们将介绍一种使用“估值网络(value networks)”评估棋盘位置价值以及“策略网络(policy networks)”选择走子动作(Action)的新的电脑围棋算法。这些深度神经网络创造性的合并监督学习(通过人类专家棋手的棋谱学习)和强化学习(通过自我对弈的方式)来训练。没有任何超前搜索,这些神经网络已经通过自我对弈的方式模拟了成千上万的对局并使自己下围棋的水平达到了世界计算机围棋最好水平(相对于使用蒙特卡洛树搜索(Monte Carlo tree search)程序)。我们也将介绍一种新颖的算法,即通过合并蒙特卡洛树搜索和估值网络、策略网络来构建围棋程序。使用该算法,程序AlphaGo与其他围棋对弈达到了99.8%的胜率,以5:0的成绩击败欧洲围棋冠军(樊辉)。这是有史以来计算机程序第一次在全盘对弈中击败人类专业棋手,这个突破以前被认为需要十年以上的时间。

2. 2017年10月DeepMind 在《自然》杂志上发表了一篇论文《Mastering the game of Go without human knowledge》,正式推出 AlphaGo Zero——人工智能围棋程序的最新版本。

2553495e039e45d634d3e87cda7b33eb27fe85ab

论文地址:https://deepmind.com/documents/119/agz_unformatted_nature.pdf

摘要:长久以来,人工智能的目标是在富有挑战性的领域中学习出一种从无知幼儿到超级专家的算法。最近,AlphaGo成为了在围棋游戏中打败人类世界冠军的第一个程序。其中,AlphaGo对下棋位置的预估和选定下棋位置所使用的树搜索算法使用了神经网络。这些网络利用高段位棋手的走棋通过有监督学习的方式来训练,然后通过自我对弈来完成进行增强学习。本篇论文中我们提出了一种完全独立的增强学习算法,算法不需要人工数据,或是基于游戏规则的引导或领域知识。AlphaGo变成了自己的老师:训练一个神经网络用来完成AlphaGo的落子预测和对弈的赢家。这个网络同时还提高了树搜索的能力,带来的结果就是能够在下一手中有更高质量的落子选择和更强的自我对弈能力。从无知幼儿开始,我们新的程序—AlphaGo Zero达到了超级专家的水平,在与之前开发的AlphaGo(指代和李世石对弈的AlphaGo)的对弈中,取得了100-0的完胜。

3. 2017年12月DeepMind在arXiv发表论文《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》表示其开发的通用强化学习程序AlphaZero,使用蒙特卡洛树搜索(MCTS)和深度神经网络,和强大的算力,同时在国际象棋,日本将棋和围棋中战胜各自领域的最强代表。而且这一切都是通过自我对弈完成的,在训练中除了游戏规则,不提供任何额外的领域知识。

7d9a6a9b85377ba415c2d9f6607d9bdb6f1fa2c6

论文地址:https://arxiv.org/pdf/1712.01815.pdf

摘要:国际象棋是人工智能史上研究最广泛的项目。目前最强大的国际象棋程序都是基于多种策略的组合,比如复杂的搜索技术,对特定领域的改进和人类专家几十年来人工不断完善的评估函数。相比之下,AlphaGo Zero仅仅使用一无所知的(tabula rasa)强化学习进行游戏的自我对弈,就在最近的围棋游戏中实现了超过人类水平的表现 。

在本文中,我们将这种方法推广到一个单一的AlphaZero算法中,该算法可以从一张白纸开始(译注:无需先验知识,比如历史的对弈记录)在许多具有挑战性的领域实现人类能力所不能及的性能。从随机玩游戏开始,除了游戏规则,不提供任何额外的领域知识,AlphaZero在24小时内实现了在象棋和日本将棋以及围棋中的超人类水平,并且令人信服地击败了每种游戏中的世界冠军。


原文发布时间为:2017-12-12

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:你也能与AlphaGo谈笑风生:AlphaGo教学工具上线,2万多变化,37万多步棋