DeepMind最近发布了一项新的开发培训学习AI模型,并进行了深入学习。在复杂的多人在线3D游戏《雷神之锤III竞技场》的升旗竞赛场景中,AI玩家已经达到了人类水平的表现,并且可以成功地与人类玩家合作,不仅如此。 AI模型的研究结果也可以扩展到《雷神之锤III竞技场》一个完整的游戏场景,它展示了多智能体训练在AI领域发展的潜力。
为了研究这个难题,DeepMind使用3D第一视图多人在线游戏来训练代表最流行类型的游戏的AI模型,并且由于沉浸式游戏玩法,可以收集数百万个游戏。玩家的想象力还可以使AI学习策略,技巧,手眼协调和团队合作。对于AI玩家来说,挑战是直接从原始像素数据中学习并生成动作。这种复杂性也使得第一个多人在线游戏的视角已成为一个丰富的AI培训资源。
首先,DeepMind训练AI玩家学会像其他玩家一样行动,并学习与同一团队中的玩家合作。无论是AI还是人类球员,旗帜比赛的规则都很简单,但动态变化很复杂,两支球队各自的球员应该在他们给定的地图上拿走另一支球队的旗帜并带回他们球队的旗帜。与此同时,他们必须保护团队的旗帜。如果您点击持有团队旗帜的敌对玩家,您可以将旗帜返回原始旗帜。在基地,5分钟内拥有最多旗帜的球队获胜。
从游戏AI玩家的角度来看,获得旗帜的比赛需要玩家与团队合作以对抗敌人。为了使研究更有趣,DeepMind为升旗比赛增加了一些变量,每场比赛的地图配置都不同。因此,AI玩家被迫寻找共同的策略,而不是依靠内存映射来完成fun88公益任务。此外,为了确保公平的竞争环境,AI玩家和人类玩家以类似的方式玩旗帜。在游戏中,AI播放器观察像素图像的流数据并通过模拟游戏控制器生成执行动作。
DeepMind使用的增强型学习有三个概念。首先,DeepMind训练一组AI玩家,而不仅仅是一个。因此,AI可以互相学习,提供多个队友或敌人,其次,每个AI玩家都会学习你自己的内部奖励信号,这样AI就会产生自己的内部目标,比如抓住旗帜。第三,AI玩家执行游戏的时区分为快速和慢速,以提高AI对内存的使用并生成一致的动作序列能力。