Deepmind的人工智能AlphaStar,在2018年12月19日一系列的星海争霸 2(StarCraft II)测试赛中,以5比0打赢世界顶尖职业玩家,Deepmind现释出了训练人工智能的细节。Deepmind提到,游戏一直是测试和评估人工智能效能的重要方法,而即便人工智能游玩Atari、马力欧甚至是Dota 2等游戏已经有很大的进展,人工智能在操作星海争霸 2上,仍然难以克服其复杂度。暴雪娱乐公司的星海争霸 2,被认为是极具挑战的实时战略游戏之一,而且过去即便是让计算机作弊,在游戏规则上动手脚,赋予计算机特殊能力,都难以与专业玩家匹敌。

Deepmind提到,人工智能要赢得游戏,除了必须谨慎地平衡经济发展,也需要微观的对各单位进行细微控制,要在短期与长期目标之间取得平衡以适应意外状况。星海争霸中没有单一最佳策略,人工智能需要在训练过程,不断探索以及拓展战略知识。而且不像是围棋或是西洋棋公开所有游戏信息,在星海争霸 2的关键玩家信息是隐藏的,必须透过侦查探索发现。另一个困难则是,人工智能需要有长期规画的能力,并非所有因果关系都是实时发生的,整个游戏历程可能长达一个小时才会结束,而这意味着早期采取的行动,或许有很长的一段时间无法获得回报。在星海争霸 2中,人工智能没有太多的思考时间,不像传统棋盘游戏是轮流进行,人工智能与玩家都必须随着游戏时间推移,不断地做出动作。人工智能还需要在大型的动作空间中做出决策,需要实时细微地控制数百个不同的单位和建筑物。由于以上这些困难,星海争霸成为人工智能的大挑战,Deepmind在2016年和2017年跟暴雪娱乐公司合作,释出了PySC2工具集,其包括至今最大的匿名游戏回放(Replay)集,Deepmind利用这些基础,并搭配先进的工程技术和算法开发出AlphaStar。

Deepmind提到,随着战队的进步,能够发展出击败早期策略的反制策略,甚至是全新战术以及微观管理计划,像是一开始人工智能喜爱使用神族的光炮或暗黑圣堂武士进行快攻,但这种充满风险的策略在训练过程被放弃,取而代之的是优先扩大基地,生产更多任务人强化经济实力,或是牺牲两个先知单位,破坏对手的工人以压制其经济发展。这个策略发展的过程,跟玩家发现新策略的方式相似。AlphaStar在手速上并没有作弊,星海争霸职业玩家平均每分钟动作(APM)可达数百个,现有机器人的APM约在数千到数万间,但是AlphaStar的平均APM约为280,明显的低于职业玩家,Deepmind表示,AlphaStar动作数更低表示每个动作都更加准确,平均观察并执行动作的延迟约在350毫秒。信息来源:www.cafes.org.tw/info.asp