[1] R. Sutton和A. Barto,《加固学习简介》,麻省理工学院出版社,1998年。[2] C. Szepesvari,《增强学习算法》,Morgan&Claypool Publishers,2010年。[3] C. Watkins,从延迟的奖励中学习,博士学位论文,剑桥大学,英格兰,1989年。[4] M. Wiering和M. Van Otterlo,加固学习:最新的ART,Springer,2014年。[5] M. Puterman,马尔可夫决策过程:离散随机动态编程,Wiley,1994年。[6] D. P. Bertsekas,动态编程和最佳控制,第一卷和II,雅典娜科学,2017年。[7] W. B. Powell,近似动态编程,Wiley,2011年。[8]选定的纸
区域: / modulnr。:部门数学 / CIT413036课程结构:讲座:2H练习:2H内容:课程概述了增强学习的数学基础,包括对马克夫决策过程的介绍和表图形的增强性增强学习方法(Monte Carlo,Monte Carlo,时间差异,SARSA,SARSA,SARSA,Q-LEAL,Q-LEARNINGNING,...)。这些主题是通过对随机近似理论的影响来补充的,以对算法进行收敛分析。Prerequisite: MA0001 Analysis 1, MA0002 Analysis 2, MA0004 Linear Algebra 1, MA0009 Introduction to Probability Theory and Statistics, MA2409 Probability Theory Literature : Sutton, Barto (2018): Reinforcement Learning: An Introduction, MIT Press Puterman (1994): Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley Kushner, Yin (2010): Stochastic近似和递归算法和应用,施普林格证书:请参阅Tumonline位置/讲座/练习:请参阅Tumonline
尽管近年来对持续学习(CL)的兴趣日益增强,但继续加强学习(CRL)仍然是一项艰巨的任务,因为深层神经网络必须从维持旧任务表现的新任务中从每个从未见过的新任务中推断出适当的行动。为了解决此问题,一些CRL算法使用基于正则化的方法来限制常规CL中使用的权重和基于重播的方法。但是,它需要花费大量时间来学习,因为它需要大量的基于重播和具有复杂正则化项的内存。在本文中,我们提出了一个简单的框架,用于保留相关顺序任务之间的知识fmal,即MAP注意力丢失。我们的方法利用模型的一般CNN,可以很好地执行所有顺序任务,并且注意机制用于提取基本特征进行传输。另外,FMAL同时使用正规化方法和基于重播的方法,例如现有的CRL方法。但是,学习所需的记忆量要小得多,正则化的项相对简单。我们使用最先进的算法评估FMAL。实验结果表明,我们的方法以较高的奖励超过这些基准。
多年来,人类一直在寻求以最高效的方式解决问题的方法。为此,人们主要利用了计算与物理学之间的内在联系。例如,兰道尔原理 [1],它揭示了热力学与信息之间的关系 [2]。同样,它催生了晶体管、微处理器以及最终的数字计算机 [3] 等发明。迄今为止,计算机已被用于解决和优化各种流程。考虑到这一点,要解决某些问题,例如天气预报 [4],首先需要对其进行模拟 [5]。然而,我们不要忘记,我们生活在一个量子世界;因此,为了尽可能准确地进行模拟,在具有同样性质的计算机上进行模拟将是最合适的 [6]。正因如此,基于这一理念,以及计算机科学领域的改进和发展,例如 GPU 或先进的数据压缩方法 [7],如今人们对量子计算 (QC) 以及人工智能 (AI) 或机器学习 (ML) 等相关技术议论纷纷。我们几乎不可能不注意到机器学习,因为它几乎应用于我们能想到的任何领域,正成为我们日常生活中一个活跃且不可或缺的部分 [8],广泛应用于工程、医学和科学等诸多领域。
在线强化学习 (RL) 算法通常难以部署在复杂的面向人类的应用程序中,因为它们可能学习缓慢并且早期性能较差。为了解决这个问题,我们引入了一种实用的算法,用于结合人类洞察力来加速学习。我们的算法,约束抽样强化学习 (CSRL),将先前的领域知识作为 RL 策略的约束/限制。它采用多种潜在的策略约束来保持对单个约束错误指定的鲁棒性,同时利用有用的约束来快速学习。给定一个基础 RL 学习算法(例如 UCRL、DQN、Rainbow),我们提出了一种具有消除方案的上限置信度,该方案利用约束与其观察到的性能之间的关系来自适应地在它们之间切换。我们使用 DQN 型算法和 UCRL 作为基础算法来实例化我们的算法,并在四种环境中评估我们的算法,包括三个基于真实数据的模拟器:推荐、教育活动排序和 HIV 治疗排序。在所有情况下,CSRL 都能比基线更快地学习到好的策略。
北京大学大学(中国)香港理工大学(中国)香港理工大学(中国)西北大学(美国)富丹大学(中国)加州大学加州大学戴维斯分校(美国)和香港大学,香港大学(中国)北京大学(中国)北京大学 of Washington (USA) The University of British Columbia (Canada) University of Science and Technology of China (China) ZTE Corporation (China) Chongqing University (China) ZTE Corporation (China) Beijing Institute of Technology (China) ZTE Corporation (China) Beijing Institute of Technology (China) Hosei University (Japan) Southwest Jiaotong University (China) Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences (China) Beijing University邮政与电信(中国)托库希马大学(日本)智格大学(中国)西迪安大学(中国)西安·贾兴大学(中国)彭昌实验室(中国)萨里郡萨里大学(英国)上海何数邮政与电信(中国)澳门(中国)中兴公司(中国)埃塞克斯大学(英国)新南威尔士大学(澳大利亚)EIT高级研究所(中国)北京实验室(中国)北京邮政与电信大学(中国)中国邮政局(中国)北南科学大学(新加坡)麦卡伊大学(新加坡)