图像来源:https://towardsdatascience.com/tutorial-douper-deep-q-learning-with-dueling-network-network-architectures-4c1b3fb7f756 https:///deepmind.com/deepmind.com/blog/blog/deepmind comle https://jaromiru.com/2016/11/11/lets-make-a-dqn-double-learning-and-prioritized-experience-replay/
去年3月,阿尔法戈(Alphago)在GO中击败了Lee Sedol,这是人类曾经被认为是无与伦比的游戏,震惊了世界。在2017年的前几天,一位名为“ Master”的神秘在线玩家出现了,并继续击败包括中国的Ke Jie,包括中国排名第一的球员。在几天之内,它积累了60胜,没有损失和一场平局的记录。如果您想知道,抽奖是因为对手的Internet连接下降了,并且该系统默认称其为平局。在线嘲讽,例如“拖走这一距离,下一个受害者”似乎是相当合适的,考虑到对手的最佳分数是不良的互联网连接。在击败中国的Gu Li之后,Google终于确认了Alphago是“ Master”背后的实际参与者。