本文来自AI新媒体量子位（QbitAI）

纽约大学心理学和神经科学教授马库斯（Gary Marcus）坚信AlphaZero仍依赖于一些人类知识，也曾在AlphaZero解读现场这样diss哈萨比斯。

可能觉得说得不够，近日，马库斯在arXiv发布了本月第二篇长文Innateness, AlphaZero, and Artificial Intelligence，继续论证AlphaZero“可以在没有人类指导的情况下训练到超过人类水平”的说法被夸大了。

“当代人工智能论文(通常)用了一个‘相当不错的’具体结果，对更广泛的主题做出了绝对普遍和离谱的断言。”几个小时前，他在推特引用了这句话，说明自己怒怼的原因。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

在文章中，马库斯将AlphaGo、AlphaGo Zero、AlphaZero的归结成一种“神奇的AI工程”，代号“AlphaStar”。

它是一种深层结构的混合，它不单利用深度学习人，也依赖于像树搜索这样的传统符号技巧（symbolic technique）。

这到底是种怎样的神奇工程？马库斯从DeepMind如何构建Alpha家族的架构开始讲起，量子位将重点内容编译整理如下。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

从零开始？

DeepMind在论文中说“一种纯强化学习方法是可行的，即使在最具挑战性的领域，它也能训练到超过人类的水平，并且无需人类的案例和指导。除了基本规则外，没有任何领域的基础知识。”

我不赞同。

他们系统中的很多方面延续了在之前在围棋程序上积累的研究，比如构建游戏程序中常用的蒙特卡洛树搜索。这种技术可以用来评估动作和对策，在树状结构上快速得到测试结果。

问题来了，蒙特卡洛树这种结构不是通过强化学习从数据中学习的。相反，它在DeepMind的程序中是与生俱来的，根深蒂固地存在于每个迭代的AlphaStar。

可以发现，DeepMind给出的卷积结构很精确，有很多下围棋的精确参数在里面，这不是通过纯碎的强化学习学到的。并且，固有算法和知识的整合的取样机制不在AlphaZero的实验范围内，这样可能会导致模型效果变差。

与其说AlphaGo是从白板开始学习，不如说是它在构建的开始就站在了巨人的肩膀上。

完美信息博弈之外

无论是围棋、国际象棋还是将棋，都属于完美信息博弈。在这些游戏中，每个玩家可以在任何时候看到已经发生或正在发生的游戏局势。正因如此，围棋、国际象棋和将棋问题特别适合用大数据的方法“蛮力破解”。

问题来了，同样的机制能解决更广泛的问题吗？

AlphaGo Zero的解释中并没有说明应用范围，结果是否在其他挑战中通用也没有被提及。事实是，即使在其他棋类游戏中，这套方法可能并不适用。

围棋程序需要的是强模式识别和树搜索技能，但其他游戏需要的能力可能不是这些。文明系列的游戏需要在不确定的交通网络中做出决策，游戏强权外交需要形成联盟，字谜游戏需要语言技能等等。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

还有一个例子，Moravcik等人研究的AI DeepStack能在德扑中击败人类对手，就需要一套相关但不同的先天结构，这无疑和完美信息的单机Atari游戏需要的结构不同。DeepMind想同时攻克这两种游戏，那他需要的是一套广泛的先天机制，而不是仅适用于单一游戏的系统。

如何让这套先天机制适用于完美信息博弈以外的游戏呢？我们接着往下看。

仅仅有强化学习和蒙特卡洛树搜索这两种先天机制还不够，那么，如果要达到通用人工智能，我们需要怎样的结构呢？

在去年10月5号和LeCun的论证中，我有机会总结出一套计算原语组合：

具备了上述的基础列表中的原语，可能自然就能拥有其他技能了。比如基于博弈的树搜索可能是AlphaStar与生俱来的，但是人们可能学习如何做出分析，即使精确度差了些，但至少可以把时间、因果关系和意图性结合在一起，具备成本效益分析的能力。

但上面列表仅仅是个初版，它应该有多长还是个未知数。这让我想起1994年Pinker提出的一组的先天能力，里面甚至包括了恐惧、自我概念和性吸引力。这些都有些经验主义，但每个特征都被认知和发展心理学、动物行为学和神经科学所支撑。

更重要的是，就目前的目的而言，这个领域确实存在一些可能的先天机制值得AI研究者去思考，简单假设在默认情况下，包含很少或几乎不包含先天机制就让人满意了，往好了说这叫保守。往坏了说，不经过思考就承诺从头开始重新学习可能也非常愚蠢，这是将每个独立的AI系统置于需要重新概括数百万年来进化的初始位置。

最后，附论文链接：
https://arxiv.org/abs/1801.05667

本文作者：安妮原文发布时间：2018-01-20