强化学习(RL)是一种计算学习方法,在与复杂和不确定的环境互动时,代理商试图最大化其获得的总奖励。它不仅在许多游戏(例如GO)中表现出很强的性能,而且在许多当今现实世界中的应用程序(例如LLM培训,体现的AI)中也成为必不可少的技术。本课程旨在教授RL的基本原理和高级主题。课程内容包括引入基本RL元素(包括MDP,动态编程,策略迭代),基于价值的方法(DQN),基于策略的方法(策略梯度),基于模型的RL,Multi-Agent RL,其他高级主题以及RL技术在当今计算机视觉或AI应用程序中的应用。为了更好地增强理解,我们还将包含一些Python/Pytorch实现。