图像来源:https://towardsdatascience.com/tutorial-douper-deep-q-learning-with-dueling-network-network-architectures-4c1b3fb7f756 https:///deepmind.com/deepmind.com/blog/blog/deepmind comle https://jaromiru.com/2016/11/11/lets-make-a-dqn-double-learning-and-prioritized-experience-replay/
可以证明,UCB的遗憾在渐近上是最佳的,请参见Lai和Robbins(1985),渐近的适应性分配规则;或2018年Bandit算法书籍的第8章在线可在线提供,网址为https://banditalgs.com/。
Glickman,M。E.和Jones,A。C.(1999)。评估国际象棋评级系统。Chance-Berlin,然后是纽约,12,21-28。Kim,B.,Wattenberg,M.,Gilmer,J.,Cai,C.,Wexler,J.,Viegas,F。等。 (2018)。 可解释性超出特征归因:具有概念激活向量(TCAV)的定量测试。 在国际机器学习会议上(pp。) 2668–2677)。 Lee,S。(2000)。 非负矩阵因子化算法。 nips。 McGrath,T.,Kapishnikov,A. 。 。 Kramnik,V。(2022)。 在Alphazero中获得国际象棋知识。 国家科学院的会议记录,119(47),E2206625119。 Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。 (2018)。 一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。 Sci-Ence,362(6419),1140–1144。 Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。 。 。 其他人(2017年)。 掌握没有人类知识的Go的游戏。 自然,550(7676),354–359。 Steingrimsson,H。(2021)。 国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。 在2021年IEEE游戏会议(COG)会议(pp。) 1–8)。 Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。Kim,B.,Wattenberg,M.,Gilmer,J.,Cai,C.,Wexler,J.,Viegas,F。等。(2018)。可解释性超出特征归因:具有概念激活向量(TCAV)的定量测试。在国际机器学习会议上(pp。2668–2677)。Lee,S。(2000)。 非负矩阵因子化算法。 nips。 McGrath,T.,Kapishnikov,A. 。 。 Kramnik,V。(2022)。 在Alphazero中获得国际象棋知识。 国家科学院的会议记录,119(47),E2206625119。 Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。 (2018)。 一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。 Sci-Ence,362(6419),1140–1144。 Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。 。 。 其他人(2017年)。 掌握没有人类知识的Go的游戏。 自然,550(7676),354–359。 Steingrimsson,H。(2021)。 国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。 在2021年IEEE游戏会议(COG)会议(pp。) 1–8)。 Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。Lee,S。(2000)。非负矩阵因子化算法。nips。McGrath,T.,Kapishnikov,A. 。 。 Kramnik,V。(2022)。 在Alphazero中获得国际象棋知识。 国家科学院的会议记录,119(47),E2206625119。 Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。 (2018)。 一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。 Sci-Ence,362(6419),1140–1144。 Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。 。 。 其他人(2017年)。 掌握没有人类知识的Go的游戏。 自然,550(7676),354–359。 Steingrimsson,H。(2021)。 国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。 在2021年IEEE游戏会议(COG)会议(pp。) 1–8)。 Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。McGrath,T.,Kapishnikov,A.。。Kramnik,V。(2022)。 在Alphazero中获得国际象棋知识。 国家科学院的会议记录,119(47),E2206625119。 Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。 (2018)。 一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。 Sci-Ence,362(6419),1140–1144。 Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。 。 。 其他人(2017年)。 掌握没有人类知识的Go的游戏。 自然,550(7676),354–359。 Steingrimsson,H。(2021)。 国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。 在2021年IEEE游戏会议(COG)会议(pp。) 1–8)。 Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。Kramnik,V。(2022)。在Alphazero中获得国际象棋知识。 国家科学院的会议记录,119(47),E2206625119。 Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。 (2018)。 一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。 Sci-Ence,362(6419),1140–1144。 Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。 。 。 其他人(2017年)。 掌握没有人类知识的Go的游戏。 自然,550(7676),354–359。 Steingrimsson,H。(2021)。 国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。 在2021年IEEE游戏会议(COG)会议(pp。) 1–8)。 Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。在Alphazero中获得国际象棋知识。国家科学院的会议记录,119(47),E2206625119。Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。(2018)。一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。Sci-Ence,362(6419),1140–1144。Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。。。其他人(2017年)。掌握没有人类知识的Go的游戏。自然,550(7676),354–359。Steingrimsson,H。(2021)。国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。在2021年IEEE游戏会议(COG)会议(pp。1–8)。Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。ARXIV预印ARXIV:2206.10498。(2023)。大型语言模型仍然无法计划(LLMS的基准计划和推理有关变更的理由)。van Opheusden,B.,Kuperwajs,I.,Galbiati,G.,Bnaya,Z.,Li,Y。,&Ma,W。J.专业知识增加了人类游戏玩法的计划深度。自然,618(7967),1000–1005。
几年前,关于增强学习的新方法的报道引起了我们的好奇心,这是几十年前,主要是在人工情报界内开发的。这些方法旨在为在不确定性下的计划和顺序决策的复杂问题提供有效的次优解决方案,长期以来被认为是棘手的。
描述:我是计算机和信息科学(CIS)的二年级硕士。这将是我第二次参加此课程。我有基于NLP的项目的实习经验,并从理论和数学的角度享受解决机器学习问题。对机器学习的基本方面的这种兴趣使我对我来说既有趣又有趣。我期待一个很棒的学期!随时通过hyadav@seas.upenn.edu
• Stockfish 是一款开源国际象棋引擎,于 2008 年发布 • 利用早期、中期和后期的原材料(棋子)优势来评估位置 • 骑士、主教和国王的最佳棋子位置,棋子形成很重要。 • 经过多年的微调,所有权重都不同 • 通过 30 多个深树找到最佳移动并对每个棋盘状态进行评估。 • 自 2013 年以来,一直在最佳国际象棋引擎中排名第 1/2,最近才输给 DeepMind 公司使用自学训练神经网络的 Alphazero • 我们使用此引擎评估自己创建的随机棋盘并训练 CNN
摘要:在本文中,我们描述了一个新的概念框架,该概念框架连接近似动态编程(DP),模型预测控制(MPC)和加固学习(RL)。该框架以两种算法为中心,这些算法在很大程度上是彼此独立的,并通过牛顿方法的强大机制在协同作用中起作用。我们称它们为“线”训练和在线播放算法。名称是从涉及游戏的RL的一些主要成功中借来的;主要示例是最近(2017年)Alphazero程序(下棋,[SHS17],[SSS17])和类似结构化的和早期(1990年代)TD-Gammon程序(扮演Backgammon,[Tes94],[TES95],[TES95],[TEG96,[TEG96]))。在这些游戏上下文中,O效率训练算法是一种教授该程序如何评估位置并在任何给定位置产生良好动作的方法,而在线游戏算法是一种实时对抗人或计算机对手的方法。显着,在线训练和在线比赛之间的协同作用也构成了MPC的基础(以及其他主要的顺序决策问题类别),实际上MPC设计体系结构与Alphazero和TD-Gammon的一种非常相似。这种概念上的见解提供了弥合RL和MPC之间文化差距的工具,并为MPC中的某些基本问题提供了新的启示。这些包括通过推出来增强稳定性,通过使用确定性等效性来处理不确定性,MPC在涉及更改系统参数的自适应控制设置中的弹性以及由牛顿方法所暗示的超线性绩效界限提供的见解。
虽然在各种棋盘游戏中,alphazero风格的增强学习(RL)算法出色,但在本文中,我们表明它们在玩家共享作品的公正游戏中面临挑战。我们提出了一个游戏的具体例子 - 即儿童游戏的NIM游戏以及其他公正的游戏,这些游戏似乎是Alphazero风格和类似的自我播放增强学习算法的绊脚石。我们的工作建立在数据分布对神经网络学习奇偶校验功能的能力上的复杂性所带来的挑战,这对嘈杂的标签问题加剧了。我们的发现与最近的研究一致,表明α风格的算法容易受到广泛的攻击和对抗性扰动的影响,这表明学习在所有法律国家中掌握游戏掌握游戏的困难。我们表明,NIM可以在小型董事会上学习,但是当板尺寸增加时,Alphazero-Style算法的学习进度会大大减慢。在直觉上,可以通过以下事实来解释,例如NIM和党派游戏等公正游戏之间的差异,如果董事会在公正游戏中涵盖了董事会的一小部分,通常不可能预测该位置是否会赢得还是丢失,因为通常在部分空白的位置和正确评估的部分之间存在零相关性。这种情况与党派游戏形成了鲜明的对比,其中部分空白的董事会位置通常提供有关完全未透明的位置的价值的丰富或至少非trife信息。
摘要:在本文中,我们描述了一个新的概念框架,该概念框架连接近似动态编程(DP),模型预测控制(MPC)和加固学习(RL)。该框架以两种算法为中心,这些算法在很大程度上是彼此独立的,并通过牛顿方法的强大机制在协同作用中起作用。我们称它们为“线”训练和在线播放算法。名称是从涉及游戏的RL的一些主要成功中借来的;主要示例是最近(2017年)Alphazero程序(下棋,[SHS17],[SSS17])和类似结构化的和早期(1990年代)TD-Gammon程序(扮演Backgammon,[Tes94],[TES95],[TES95],[TEG96,[TEG96]))。在这些游戏上下文中,O效率训练算法是一种教授该程序如何评估位置并在任何给定位置产生良好动作的方法,而在线游戏算法是一种实时对抗人或计算机对手的方法。显着,在线训练和在线比赛之间的协同作用也构成了MPC的基础(以及其他主要的顺序决策问题类别),实际上MPC设计体系结构与Alphazero和TD-Gammon的一种非常相似。这种概念上的见解提供了弥合RL和MPC之间文化差距的工具,并为MPC中的某些基本问题提供了新的启示。这些包括通过推出来增强稳定性,通过使用确定性等效性来处理不确定性,MPC在涉及更改系统参数的自适应控制设置中的弹性以及由牛顿方法所暗示的超线性绩效界限提供的见解。