这项研究研究了在两个不同的马尔可夫决策过程(MDP)环境中应用了四个强化学习(RL)算法的算法(RL)算法的表现:交通交叉点问题和仓库机器人问题。在交通交叉点问题中,发现策略的收敛速度快于价值迭代,而Q学习的速度比SARSA更快。在仓库机器人问题中,Q学习和SARSA都成功地学习了导航策略,而Q学习更具对环境变化的支持。研究表明,RL算法对重要的MDP参数(例如折现因子,过渡概率和奖励功能)高度敏感,这意味着需要仔细调整这些参数。此外,该研究还探讨了计划者与代理商之间的权衡,从而在融合,稳定性和效率方面进行了权衡。使用Python和各种库进行实施,这些发现提供了有关如何在动荡的环境中应用RL技术的见解,并建议将来改善算法设计和实现的方法。
摘要 - 在本文中,我们使用原始加固学习(RL)方法提出了一种基于学习的非线性模型预测控制器(NMPC),以学习NMPC方案的最佳权重。控制器用作深度预期SARSA的当前动作值函数,其中通常用次级NMPC获得的后续动作值函数与神经网络(NN)近似。在现有方法方面,我们添加了NN的输入NMPC学习参数的当前值,以便网络能够近似行动值函数并稳定学习性能。另外,在使用NN的情况下,实时计算负担大约减半而不会影响闭环性能。此外,我们将梯度时间差异方法与参数化的NMPC结合在一起,作为预期的SARSA RL方法的函数近似函数,以克服函数近似中存在非线性时克服潜在参数的差异和不稳定性问题。仿真结果表明,所提出的方法在没有不稳定性问题的情况下收敛到本地最佳解决方案。
区域: / modulnr。:部门数学 / CIT413036课程结构:讲座:2H练习:2H内容:课程概述了增强学习的数学基础,包括对马克夫决策过程的介绍和表图形的增强性增强学习方法(Monte Carlo,Monte Carlo,时间差异,SARSA,SARSA,SARSA,Q-LEAL,Q-LEARNINGNING,...)。这些主题是通过对随机近似理论的影响来补充的,以对算法进行收敛分析。Prerequisite: MA0001 Analysis 1, MA0002 Analysis 2, MA0004 Linear Algebra 1, MA0009 Introduction to Probability Theory and Statistics, MA2409 Probability Theory Literature : Sutton, Barto (2018): Reinforcement Learning: An Introduction, MIT Press Puterman (1994): Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley Kushner, Yin (2010): Stochastic近似和递归算法和应用,施普林格证书:请参阅Tumonline位置/讲座/练习:请参阅Tumonline
o详尽的搜索(BFS / DFS)o启发函数 /合并知识o启发式搜索(最佳搜索 / a*) GA实施:突变,跨界,选择,繁殖•加固学习(RL)o RL简介:代理,环境,行动,政策,政策,奖励匪徒问题(探索与剥削)o马尔可夫决策过程o通用政策迭代o蒙特 - 卡洛方法o时间差异学习(SARSA / Q学习)•神经网络(NN)< / div>
从人类决策的行为研究中汲取灵感,我们在这里提出了一个更一般,更灵活的参数框架,用于加强学习,将标准Q学习扩展到处理积极和负面奖励的两流模型,并允许将广泛的奖励处理偏见 - 使人相互作用的重要组成部分,使得跨越多种多样的社会的重要组成部分,以实现跨越的范围。系统以及与正常奖励处理中断相关的各种神经精神疾病。From the computational perspective, we observe that the proposed Split-QL model and its clinically inspired variants consistently outperform standard Q-Learning and SARSA methods, as well as recently proposed Double Q-Learning approaches, on simulated tasks with particular reward distributions, a real-world dataset capturing human decision-making in gambling tasks, and the Pac-Man game in a lifelong learning setting across different reward stationarities.
Table 1: Lecture outline (subject to change) Lecture Date Topics covered 1 8/23 Introduction to reinforcement learning and its applications, course logistics 2 8/25 An example and introduction to terminology 3 8/30 Sequential decision making: Multi-armed bandits I 8/31 (Bonus) Homework 0 due 4 9/1 Multi-armed bandits II 5 9/6 Markov decision processes I 6 9/8 Markov decision processes II 9/9 Homework 1到期7 9/13马尔可夫决策过程iii 8 9/15动态编程SARSA,Q学习10/7家庭作业3应当15 10/11总结和表格方法摘要10/13秋季休息。没有类。16 10/18近似解决方案方法:功能近似I 17 10/20 rl具有功能近似II 10/21项目:临时报告:临时报告18 10/25 rl具有功能近似III 19 10/27 Rl具有功能近似功能近似值,包含功能近似,包含20 11/1策略梯度I I 21 11/3 Politive渐变方法II 11/11 11/11 11/11 11/11 11/4功能近似方法的UP和摘要24 11/15 TBD:高级主题i 25 11/17 TBD:高级主题II 11/18家庭作业5欠款26 11/22 TBD:高级主题III 11/24感恩节。没有类。27 11/29 TBD:高级主题IV 28 12/1其他高级主题概述。结论。29 12/6最终项目闪电演示文稿(暂定)12/12项目:最终报告
增强学习(RL)是代理通过与经验数据集进行交互来学习最佳行为的过程,所有这些都旨在最大化奖励信号。rl算法通常在现实世界应用中面临性能挑战,尤其是在使用广泛而多样的数据集培训时。例如,诸如自动驾驶汽车之类的应用程序包括感官数据,Dy-Namic的交通信息(包括其他车辆和行人的运动),关键的风险评估以及各种代理行动。因此,由于对大量体验数据集进行了抽样,因此RL训练可能完全不适合硬件缓存,并且在内存和计算单元(例如CPU,GPU)之间所需的频繁数据传输,尤其是批量批次更新。这种瓶颈会产生大量的执行潜伏期,并影响整体培训时间。为了减轻最近提出的以内存为中心的计算范例(例如内存中的处理(PIM)),可以通过执行内存设备内的计算来解决与内存延迟相关的瓶颈。在本文中,我们介绍了Swiftrl,该文章探讨了现实世界中PIM体系结构加速流行的RL工作负载及其培训阶段的潜力。我们在Upmem Pim系统上调整了RL算法,即Tabular Q-Learning和SARSA,并首先使用两种不同的环境和三种采样策略观察他们的性能。此外,我们开发和评估了针对硬件优化的Q学习的多代理版本,并说明了如何使用多个代理来利用PIM进行算法缩放。然后,我们通过近似Q值更新功能(由于运行时库使用的运行时指令仿真而避免了高性能成本),并结合了基础算法所需的某些PIM特异性例程,从而实现了RL适应PIM期间的性能选择策略。我们使用Upmem硬件在OpenAI健身房环境上实验评估RL工作负载。我们的结果表明,当PIM核心数量增加16×(125至2000)时,性能的近线性缩放比例为15倍。我们还将我们的PIM实施与Intel(R)Xeon(R)Silver 4110 CPU和NVIDIA RTX 3090 GPU进行了比较,并在Upmem PIM系统上观察到具有不同实现的UPMEM PIM系统。