可以证明,UCB的遗憾在渐近上是最佳的,请参见Lai和Robbins(1985),渐近的适应性分配规则;或2018年Bandit算法书籍的第8章在线可在线提供,网址为https://banditalgs.com/。
Glickman,M。E.和Jones,A。C.(1999)。评估国际象棋评级系统。Chance-Berlin,然后是纽约,12,21-28。Kim,B.,Wattenberg,M.,Gilmer,J.,Cai,C.,Wexler,J.,Viegas,F。等。 (2018)。 可解释性超出特征归因:具有概念激活向量(TCAV)的定量测试。 在国际机器学习会议上(pp。) 2668–2677)。 Lee,S。(2000)。 非负矩阵因子化算法。 nips。 McGrath,T.,Kapishnikov,A. 。 。 Kramnik,V。(2022)。 在Alphazero中获得国际象棋知识。 国家科学院的会议记录,119(47),E2206625119。 Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。 (2018)。 一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。 Sci-Ence,362(6419),1140–1144。 Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。 。 。 其他人(2017年)。 掌握没有人类知识的Go的游戏。 自然,550(7676),354–359。 Steingrimsson,H。(2021)。 国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。 在2021年IEEE游戏会议(COG)会议(pp。) 1–8)。 Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。Kim,B.,Wattenberg,M.,Gilmer,J.,Cai,C.,Wexler,J.,Viegas,F。等。(2018)。可解释性超出特征归因:具有概念激活向量(TCAV)的定量测试。在国际机器学习会议上(pp。2668–2677)。Lee,S。(2000)。 非负矩阵因子化算法。 nips。 McGrath,T.,Kapishnikov,A. 。 。 Kramnik,V。(2022)。 在Alphazero中获得国际象棋知识。 国家科学院的会议记录,119(47),E2206625119。 Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。 (2018)。 一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。 Sci-Ence,362(6419),1140–1144。 Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。 。 。 其他人(2017年)。 掌握没有人类知识的Go的游戏。 自然,550(7676),354–359。 Steingrimsson,H。(2021)。 国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。 在2021年IEEE游戏会议(COG)会议(pp。) 1–8)。 Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。Lee,S。(2000)。非负矩阵因子化算法。nips。McGrath,T.,Kapishnikov,A. 。 。 Kramnik,V。(2022)。 在Alphazero中获得国际象棋知识。 国家科学院的会议记录,119(47),E2206625119。 Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。 (2018)。 一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。 Sci-Ence,362(6419),1140–1144。 Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。 。 。 其他人(2017年)。 掌握没有人类知识的Go的游戏。 自然,550(7676),354–359。 Steingrimsson,H。(2021)。 国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。 在2021年IEEE游戏会议(COG)会议(pp。) 1–8)。 Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。McGrath,T.,Kapishnikov,A.。。Kramnik,V。(2022)。 在Alphazero中获得国际象棋知识。 国家科学院的会议记录,119(47),E2206625119。 Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。 (2018)。 一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。 Sci-Ence,362(6419),1140–1144。 Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。 。 。 其他人(2017年)。 掌握没有人类知识的Go的游戏。 自然,550(7676),354–359。 Steingrimsson,H。(2021)。 国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。 在2021年IEEE游戏会议(COG)会议(pp。) 1–8)。 Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。Kramnik,V。(2022)。在Alphazero中获得国际象棋知识。 国家科学院的会议记录,119(47),E2206625119。 Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。 (2018)。 一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。 Sci-Ence,362(6419),1140–1144。 Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。 。 。 其他人(2017年)。 掌握没有人类知识的Go的游戏。 自然,550(7676),354–359。 Steingrimsson,H。(2021)。 国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。 在2021年IEEE游戏会议(COG)会议(pp。) 1–8)。 Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。在Alphazero中获得国际象棋知识。国家科学院的会议记录,119(47),E2206625119。Silver,D.,Hubert,T.,Schrittwieser,J.,Antonoglou,I.,Lai,M。,等。(2018)。一种普遍的增强学习算法,掌握了国际象棋,Shogi并进行自我游戏。Sci-Ence,362(6419),1140–1144。Silver,D.,Schrittwieser,J.,Simonyan,K.,Antonoglou,I.,Huang,A.,Guez,A.,。。。其他人(2017年)。掌握没有人类知识的Go的游戏。自然,550(7676),354–359。Steingrimsson,H。(2021)。国际象棋堡垒,这是对技术状态象征[Neuro]架构的因果测试。在2021年IEEE游戏会议(COG)会议(pp。1–8)。Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。 ARXIV预印ARXIV:2206.10498。 (2023)。Valmeekam,K.,Olmo,A.,Sreedharan,S。和Kambhampati,S。(2022)。ARXIV预印ARXIV:2206.10498。(2023)。大型语言模型仍然无法计划(LLMS的基准计划和推理有关变更的理由)。van Opheusden,B.,Kuperwajs,I.,Galbiati,G.,Bnaya,Z.,Li,Y。,&Ma,W。J.专业知识增加了人类游戏玩法的计划深度。自然,618(7967),1000–1005。
几年前,关于增强学习的新方法的报道引起了我们的好奇心,这是几十年前,主要是在人工情报界内开发的。这些方法旨在为在不确定性下的计划和顺序决策的复杂问题提供有效的次优解决方案,长期以来被认为是棘手的。
图像来源:https://towardsdatascience.com/tutorial-douper-deep-q-learning-with-dueling-network-network-architectures-4c1b3fb7f756 https:///deepmind.com/deepmind.com/blog/blog/deepmind comle https://jaromiru.com/2016/11/11/lets-make-a-dqn-double-learning-and-prioritized-experience-replay/