课程描述:本课程是为增强学习提供基本概念和数学框架。具体主题包括马尔可夫决策过程,表格加强学习,策略梯度方法和功能近似,例如深度强化学习。可选主题是分配加强学习,基于模型的方法,外线学习,逆强化学习和多代理强化学习。该课程旨在使研究学生从方法论发展或强化学习对应用程序的应用的角度来体验有关强化学习的研究。教科书:无教科书参考:强化学习:第二版,R。Sutton和A. Barto,麻省理工学院出版社,2018年马尔可夫决策过程 - 离散的随机动态编程,Martin L. Puterman,Wiley,Wiley,1994 cglee@mie.utoronto.ca ta:将宣布主题列表: