课程覆盖范围:本课程是基于迭代非线性,适应性和最佳反馈控制动态系统的工程方法(RL)(机器学习的重要领域)控制系统的视角。中心主题将围绕近似动态编程技术发展。作为课程的介绍,将简要介绍Sutton和Barto教科书中某些章节的本质(有关强化学习的主要计算机科学教科书),以学习RL术语和RL中使用的基本过程。该书介绍了加强学习的计算机科学方法(主要是蒙特卡洛和马尔可夫统计数据(马尔可夫决策过程,MDP),以及使用神经网络来生成学习政策)。在此类中,控制和系统方法将用于生成学习策略(最佳反馈策略,最佳反馈控制)。
主要关键词