区域: / modulnr。:部门数学 / CIT413036课程结构:讲座:2H练习:2H内容:课程概述了增强学习的数学基础,包括对马克夫决策过程的介绍和表图形的增强性增强学习方法(Monte Carlo,Monte Carlo,时间差异,SARSA,SARSA,SARSA,Q-LEAL,Q-LEARNINGNING,...)。这些主题是通过对随机近似理论的影响来补充的,以对算法进行收敛分析。Prerequisite: MA0001 Analysis 1, MA0002 Analysis 2, MA0004 Linear Algebra 1, MA0009 Introduction to Probability Theory and Statistics, MA2409 Probability Theory Literature : Sutton, Barto (2018): Reinforcement Learning: An Introduction, MIT Press Puterman (1994): Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley Kushner, Yin (2010): Stochastic近似和递归算法和应用,施普林格证书:请参阅Tumonline位置/讲座/练习:请参阅Tumonline
摘要 - 强化学习方法表明,在无人系统中解决具有挑战性的方案的问题。然而,在高度复杂的环境中解决长期决策序列,例如在密集的情况下的连续车道变化和超车仍然具有挑战性。尽管现有的无人车系统取得了长足的进步,但最大程度地降低了驱动风险是第一个考虑。风险意识的强化学习对于解决潜在的驾驶风险至关重要。但是,在无人车辆中应用的现有强化学习算法并未考虑多种风险来源带来的风险的可变性。基于上述分析,本研究提出了一种具有风险感知的加强学习方法,并通过驱动任务分解,以最大程度地减少各种来源的风险。特别是,构建了风险潜在领域,并结合了强化学习以分解驾驶任务。建议的强化学习框架使用不同的风险分支网络来学习驾驶任务。此外,提出了针对不同风险分支的低风险发作抽样方法来解决高质量样本的短缺并进一步提高采样效率。此外,采用了一种干预培训策略,其中人工电位场(APF)与增强学习相结合以加快训练并进一步确保安全。最后,提出了完整的干预风险分类双胞胎延迟的深层确定性政策梯度任务分解(IDRCTD3-TD)算法。两个具有不同困难的场景旨在验证该框架的优越性。结果表明,所提出的框架在性能方面具有显着改善。
尽管近年来对持续学习(CL)的兴趣日益增强,但继续加强学习(CRL)仍然是一项艰巨的任务,因为深层神经网络必须从维持旧任务表现的新任务中从每个从未见过的新任务中推断出适当的行动。为了解决此问题,一些CRL算法使用基于正则化的方法来限制常规CL中使用的权重和基于重播的方法。但是,它需要花费大量时间来学习,因为它需要大量的基于重播和具有复杂正则化项的内存。在本文中,我们提出了一个简单的框架,用于保留相关顺序任务之间的知识fmal,即MAP注意力丢失。我们的方法利用模型的一般CNN,可以很好地执行所有顺序任务,并且注意机制用于提取基本特征进行传输。另外,FMAL同时使用正规化方法和基于重播的方法,例如现有的CRL方法。但是,学习所需的记忆量要小得多,正则化的项相对简单。我们使用最先进的算法评估FMAL。实验结果表明,我们的方法以较高的奖励超过这些基准。
课程描述:本课程是为增强学习提供基本概念和数学框架。具体主题包括马尔可夫决策过程,表格加强学习,策略梯度方法和功能近似,例如深度强化学习。可选主题是分配加强学习,基于模型的方法,外线学习,逆强化学习和多代理强化学习。该课程旨在使研究学生从方法论发展或强化学习对应用程序的应用的角度来体验有关强化学习的研究。教科书:无教科书参考:强化学习:第二版,R。Sutton和A. Barto,麻省理工学院出版社,2018年马尔可夫决策过程 - 离散的随机动态编程,Martin L. Puterman,Wiley,Wiley,1994 cglee@mie.utoronto.ca ta:将宣布主题列表:
强化学习是机器学习的第三主要类别,以及受监督和无监督的学习。此技术用于顺序决策问题,在这种决策问题中,代理采取了最大化其预期累积奖励的动作。与深度神经网络(称为深度增强学习)结合使用,该技术用于许多领域的控制问题。本课程单元的目的是将基本原则和现代范式应用于强化学习,以便学生可以独立地独立理解和构建该领域的新学术文献。讨论了单一代理和多代理情况。在许多作业中,学生获得动手经验