必发官网:DeepMind的AlphaZero击败了最先进的国际象棋和棋牌游戏引擎

  • 时间:
  • 浏览:21

  差不多一年前,由谷歌母公司Alphabet所拥有的英国人工智能(AI)部门DeepMind成为头条新闻的预制研究(“通过自我发挥掌握国际象棋和Shogi以及通用强化学习算法”)描述了一个系统 - AlphaZero--它可以教自己如何掌握国际象棋游戏,日本国际象棋棋子shogi,以及中国棋盘游戏Go。在每种情况下,它都击败了世界冠军,展示了学习具有完美信息的双人游戏的最先进技巧 - 也就是说,任何决定都被告知之前发生的所有事件的游戏。

  

  DeepMind的说法令人印象深刻,但他们没有经过同行评审。那改变了。DeepMind今天宣布,经过数月的反复修订,其在AlphaZero上的工作已经被必发官网“ 科学 ”杂志所接受,并成为首页。

  “几年前,我们的计划AlphaGo以四场比赛的比分击败了18次世界冠军围棋冠军李赛德。但对于我们来说,这实际上是构建一个通用学习系统的开始,这个系统可以学习自己,以超人的方式玩许多不同的游戏,“AlphaZero的首席研究员David Silver告诉在会议室聚集的记者在蒙特利尔的NeurIPS 2018。“AphaZero是这一历程的下一步。它从头开始学习击败Gi,Chess和Shogi的世界冠军计划,从游戏规则以外的任何知识开始。“

  Silver解释说,这些游戏的选择既考虑了它们的复杂性,也考虑了之前针对它们进行AI研究的丰富历史。

  “国际象棋......代表了人工智能被推到绝对极限时可以通过传统方法实现的目标,因此我们希望看看我们是否能够推翻传统方法,即使用完全原则性的自学习手段进行大量手工制作接近,“他说。“我们选择Shogi的原因在于,就难度来说,它是除了Go之外的少数棋盘游戏之一,即使是专门的程序和计算机程序,也是非常非常具有挑战性的。只有......在过去一两年里,有任何计算机程序能够与人类世界冠军竞争。“

  为此,本周发表的论文描述了DeepMind如何通过利用深度神经网络 - 模仿人类大脑中神经元行为的分层数学函数,优于象棋和骗子游戏算法,如Stockfish,Elmo和IBM的Deep Blue。 - 而不是手工制作的规则。其动态的游戏模式产生了创造性和非传统的策略,激发了两届英国国际象棋冠军和大师马修·萨德勒以及女性国际大师娜塔莎·里根(Natasha Regan)的即将出版的书籍,他精心评论了AlphaZero的近1000款国际象棋比赛。

  “传统引擎非常强大并且几乎没有明显的错误,但是当面对没有具体和可计算解决方案的位置时可能会漂移......令人印象深刻的是,[AlphaZero]设法将其比赛风格强加于各种各样的位置和开口,”萨德勒说过。“正是在这样的位置,AlphaZero才能实现”感觉“,”洞察力“或”直觉“。AlphaZero像人类一样着火。这是一种非常漂亮的风格。“

  例如,在国际象棋中,AlphaZero发现了诸如开口(国际象棋游戏的初始动作),国王安全(保护王牌的方式)和棋子结构(棋盘上的棋子的配置)等图案。它倾向于围绕对手的国王聚集,并最大限度地提高其棋子的移动性,同时最大限度地减少敌人的棋子。与人类不同,它愿意为追求长期目标而牺牲一些东西。

  教授AlphaZero如何玩这三个游戏中的每个游戏都需要在强化学习过程中模拟数百万个匹配对象,其中奖励和惩罚系统驱动AI代理实现特定目标。AlphaZero最初随机播放,但最终通过调整参数以支持某种游戏风格来避免损失。

  DeepMind AlphaZero

  训练AlphaZero所花费的总时间因游戏而异。在具有5,000个第一代张量处理单元(TPU)和16个第二代TPU的系统上,至少有700,000个培训步骤(每个步骤代表4,096个板位) - Google针对机器学习优化的专用集成电路(ASIC) - 花了9个小时来制作和玩国际象棋游戏,分别为shogi和Go花了大约12小时13天。

  经过训练的AlphaZero使用蒙特卡罗树搜索(MCTS) - 一种用于决策过程的启发式搜索算法 - 来选择每个移动。它能够非常迅速地完成搜索,DeepMind的首席执行官兼联合创始人Demis Hassabis告诉记者 - 国际象棋每秒约有60,000个位置,而Stockfish大约有6000万个。

  “这不如人类大师那么高效,他可能只看了大约100个位置。决定,“哈萨比斯说,”但就蛮力计算而言,我们的效率是手工发动机的千倍。“

  为了测试经过全面训练的AlphaZero,DeepMind的研究人员除了其前身AlphaGo Zero之外,还对上述的Stockfish和Elmo游戏引擎进行了测试。在具有44个处理器内核和4个谷歌第一代TPU的单台机器上运行 - 硬件具有与具必发官网有多个Nvidia Titan V图形处理单元(GPU)的工作站大致相同的推理能力 - AlphaZero轻松赢得了三个中的大多数游戏 - 每场比赛的限制条件。

  DeepMind AlphaZero

  在国际象棋中,在与Stockfish的1000场比赛中,AlphaZero赢得了155场比赛,仅输了6场。此外,它在以常见的人类国际象棋比赛策略开始的比赛中名列前茅; 从2016年顶级国际象棋发动机锦标赛(TCEC)锦标赛中使用的一系列位置开始的比赛; 以及使用最新版本的Stockfish - Stockfish 9的游戏 - 以及配置了World Championship配置,时间控制和开口的Stockfish变种。

  同时,在Shogi,AlphaZero在91.2%的时间里击败了2017年CSA世界冠军版Elmo。在针对AlphaGo Zero的比赛中,它赢得了61%的比赛。

  Hassabis表示,国际象棋界正在利用AlphaZero的观点来推动有关马格努斯卡尔森和法比亚诺卡鲁阿纳之间最近举行的世界国际象棋锦标赛比赛的争论,已经发布了数百张AlphaZero国际象棋和棋牌游戏的序列。

  “看看AlphaZero的分析与顶级国际象棋引擎甚至顶级大师赛的分析有何不同,这很有意思,”里根说。“花了好几个月探索AlphaZero的国际象棋游戏,我觉得我对游戏的概念和理解已被改变和丰富。AlphaZero为我们提供了一个检查我们人类自学国际象棋游戏的一切,它可以成为整个社区的强大教学工具。“

  当然,最后的结局不仅仅是超人的国际象棋程序。哈萨比斯说,目标是利用AlphaZero项目的知识开发能够解决社会最严峻挑战的系统。

  DeepMind目前参与了几项与健康相关的人工智能项目,包括美国退伍军人事务部正在进行的一项试验,旨在预测患者必发88在住院期间病情何时恶化。此前,它与英国国家健康服务中心合作开发了一种可以寻找早期失明迹象的算法。在今年早些时候的医学影像计算和计算机辅助干预会议上发表的一篇论文中,DeepMind的研究人员表示,他们已经开发出一种能够以“近乎人性化”的方式对CT扫描进行分割的AI系统。

  最近,DeepMind的AlphaFold--一种可以预测复杂蛋白质结构的AI系统 - 在CASP13蛋白质折叠竞赛中排名第98位。

  “阿尔法零度是我们一直迈向一般人工智能的垫脚石,”哈萨比斯说。“我们测试自己和所有这些游戏的原因是......它们是我们开发算法的一个非常方便的试验场......最终,[我们正在开发可以将算法转化为现实世界的算法]努力解决真正具有挑战性的问题......并帮助这些领域的专家。


必发88 必发官网 必发88