学习如何通过深神经网络玩Atari游戏

1959年7月,亚瑟·塞缪尔(Arthur Samuel)开发了最早玩跳棋游戏的代理商之一。可以用塞缪尔(Samuel)自己的话说:“……可以对其进行编程的计算机,以便它可以学会玩更好的跳棋游戏的计算机比[…]通过深度神经网络玩Atari游戏,首先出现在数据科学方面。

来源:走向数据科学

1959年7月,亚瑟·塞缪尔(Arthur Samuel)开发了最早玩跳棋游戏的代理商之一。可以用塞缪尔(Samuel)自己的话说:“……可以对其进行编程的计算机,以便它可以学会玩更好的跳棋游戏的计算机比编写该程序的人可以玩的更好的角色游戏”,这构成了扮演Checkers的代理商。 [1]。 Checkers的代理商试图遵循在当前情况下模拟所有可能举动的想法,并选择最有利的行动,即使玩家更接近获胜的情况。此举的“优势”取决于评估功能,代理商通过经验来改善该功能。自然,代理商的概念不仅限于跳棋游戏,而且许多从业者试图在受欢迎的游戏中匹配或超越人类的表现。著名的例子包括IBM的深蓝色(当时设法击败了国际象棋世界冠军Garry Kasparov)和Tesauro的TD-Gammon,这是一种时间差异方法,其中评估功能是使用神经网络建模的。实际上,TD-Gammon的比赛风格非常罕见,以至于一些专家甚至采用了一些策略,它引起了人们的影响[2]。

代理 给定当前情况 有利的 深蓝色 td-gammon, 时间差异 td-gammon dqn 深神经网络 深神经网络 TD学习 nb: 深度强化学习

该帖子的分区如下:首先,我在玩Atari游戏中定义了问题,并解释了为什么某些传统方法可能会棘手。最后,我介绍了DQN方法的细节,并深入研究了技术实施。

手动的问题

在剩余的帖子中,我假设您知道监督学习的基础知识,神经网络(基本FFN和CNN)以及基本的强化学习概念(Bellman方程,TD学习,Q学习等)如果其中一些RL概念对您来说是陌生的,那么该播放列表是一个很好的介绍。

ffns ffns cnns cnns 播放列表 播放列表 是一个很好的介绍。