2。R. S. Sutton和A. G. Barto,增强学习:介绍,第二版,2018年11月R. S. Sutton和A. G. Barto,增强学习:介绍,第二版,2018年11月
资料来源:•HalDauméIII的机器学习课程。http://ciml.info•加固学习:Sutton和Barto的介绍,麻省理工学院出版社,
r einformention学习(RL)是一种计算理论,讲述了确定最大化收集奖励的最佳行为(Bhui等,2021; Sutton&Barto,2018; Williams,1992)。rl是游戏中的成功策略(Silver等,2018; Tesauro,Gerald,1994),并有望成为理解神经加工的理论框架,尤其是在多巴胺神经元中(Hollerman&Schultz,1998; Kim等,2020),但请参见(Jeong et al。,2022年)。尽管RL的早期概念受到动物行为的启发(Sutton&Barto,1981),但将RL应用于自然行为仍然具有挑战性。主要是,行为往往是最佳的,违反了最佳行动政策(Akaishi等,2014,p。201; Akrami等,2018; Samuelson,William&Zeckhauser,Richard,Richard,Richard,Richard,1988)。行为次优的行为本身不会伪造RL理论;这是高估的探索量仍然令人困惑。
纽约,纽约,2025年3月5日 - ACM,计算机协会,今天,Andrew G. Barto和Richard S. Sutton是2024 ACM A.M.的接受者图灵(Turing)因发展强化学习的概念和算法基础而奖。在从1980年代开始的一系列论文中,Barto和Sutton介绍了主要思想,构建了数学基础,并开发了强化学习的重要算法,这是创建智能系统的最重要方法之一。Barto是马萨诸塞大学阿默斯特大学的信息和计算机科学名誉教授。Sutton是艾伯塔大学(University of Alberta)的计算机科学教授,Keen Technologies的研究科学家,AMII的研究员(Alberta Machine Intelligence Institute)。ACM A.M.图灵奖,通常称为“计算机上的诺贝尔奖”,带有100万美元的奖金,并提供了Google,Inc.提供的财务支持。该奖项以英国数学家Alan M. Turing的名字命名,他阐明了计算机的数学基础。什么是强化学习?人工智能(AI)的领域通常与建造代理有关,即感知和行动的实体。更聪明的代理人是那些选择更好的行动方案的代理商。因此,某些行动方案比其他行动更好的概念是AI的核心。奖励 - 从心理学和神经科学中借来的一个术语 - 指示提供给与其行为质量相关的代理商的信号。强化学习(RL)是学习信号更成功地学习的过程。从奖励中学习的想法已经熟悉了数千年。后来,艾伦·图灵(Alan Turing)1950年的论文“计算机和智能”,解决了“ can can
[1] R. Sutton和A. Barto,《加固学习简介》,麻省理工学院出版社,1998年。[2] C. Szepesvari,《增强学习算法》,Morgan&Claypool Publishers,2010年。[3] C. Watkins,从延迟的奖励中学习,博士学位论文,剑桥大学,英格兰,1989年。[4] M. Wiering和M. Van Otterlo,加固学习:最新的ART,Springer,2014年。[5] M. Puterman,马尔可夫决策过程:离散随机动态编程,Wiley,1994年。[6] D. P. Bertsekas,动态编程和最佳控制,第一卷和II,雅典娜科学,2017年。[7] W. B. Powell,近似动态编程,Wiley,2011年。[8]选定的纸
课程覆盖范围:本课程是基于迭代非线性,适应性和最佳反馈控制动态系统的工程方法(RL)(机器学习的重要领域)控制系统的视角。中心主题将围绕近似动态编程技术发展。作为课程的介绍,将简要介绍Sutton和Barto教科书中某些章节的本质(有关强化学习的主要计算机科学教科书),以学习RL术语和RL中使用的基本过程。该书介绍了加强学习的计算机科学方法(主要是蒙特卡洛和马尔可夫统计数据(马尔可夫决策过程,MDP),以及使用神经网络来生成学习政策)。在此类中,控制和系统方法将用于生成学习策略(最佳反馈策略,最佳反馈控制)。
课程描述:本课程是为增强学习提供基本概念和数学框架。具体主题包括马尔可夫决策过程,表格加强学习,策略梯度方法和功能近似,例如深度强化学习。可选主题是分配加强学习,基于模型的方法,外线学习,逆强化学习和多代理强化学习。该课程旨在使研究学生从方法论发展或强化学习对应用程序的应用的角度来体验有关强化学习的研究。教科书:无教科书参考:强化学习:第二版,R。Sutton和A. Barto,麻省理工学院出版社,2018年马尔可夫决策过程 - 离散的随机动态编程,Martin L. Puterman,Wiley,Wiley,1994 cglee@mie.utoronto.ca ta:将宣布主题列表:
•理查德·S·萨顿(Richard S. Sutton)和安德鲁·G·巴托(Andrew G.麻省理工学院出版社,2018年。$ 80.00,在线获得:http://incompleteideas.net/book/the-book-2nd.html•Dimitri P. Bertsekas,动态编程和最佳控制,雅典娜Scientific,2012年(第4版)。$ 134.50•Mykel J. Kochenderfer,不确定性下的决策:理论与应用,麻省理工学院出版社,2015年。$ 70.00,在线获取:https://ieeexplore.ieee.org/book/7288640•汤姆·夸(Tom Kwong),朱莉娅(Julia)的动手设计模式和最佳实践,Packt Publishing,2020年。$ 39.99•Stefano Albrecht,Filippos Christianos和Lukas Schafer,多代理增强学习:Foun-Dates和现代方法。在线获得:https://www.marl-book.com/•劳拉·格雷瑟(Laura Graesser),瓦·洛恩(Wah Loon Keng),《深度加固学习的基础:python的理论与实践》。皮尔逊教育,2020年。$ 50.00。
区域: / modulnr。:部门数学 / CIT413036课程结构:讲座:2H练习:2H内容:课程概述了增强学习的数学基础,包括对马克夫决策过程的介绍和表图形的增强性增强学习方法(Monte Carlo,Monte Carlo,时间差异,SARSA,SARSA,SARSA,Q-LEAL,Q-LEARNINGNING,...)。这些主题是通过对随机近似理论的影响来补充的,以对算法进行收敛分析。Prerequisite: MA0001 Analysis 1, MA0002 Analysis 2, MA0004 Linear Algebra 1, MA0009 Introduction to Probability Theory and Statistics, MA2409 Probability Theory Literature : Sutton, Barto (2018): Reinforcement Learning: An Introduction, MIT Press Puterman (1994): Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley Kushner, Yin (2010): Stochastic近似和递归算法和应用,施普林格证书:请参阅Tumonline位置/讲座/练习:请参阅Tumonline