视觉增强学习(RL)是实现人类智力的有前途的方法。但是,它目前在嘈杂的环境中有效地学习面临挑战。相比之下,人类可以通过应用以前获得的常识来迅速识别到分散注意力的环境中的与任务相关的观察。最近,自然语言处理和计算机视觉中的基础模式取得了巨大的成功,这些模型中的常识可以显着使下游任务培训受益。受这些成就的启发,我们旨在将基础模型的常识不足为视觉RL。我们提出了一种新颖的效果(FTD)框架,使代理可以仅基于与任务相关的对象做出决策。为了实现这一目标,我们引入了一种努力机制,以从基础细分模型返回的对象集中选择与任务相关的对象,仅使用与任务相关的对象进行决策模块的后续培训。此外,我们专门采用了两个通用的自我监督目标来促进这种注意机制的快速学习。基于DeepMind Control Suite和Franka Emika机器人技术的CHALENGING任务的实验结果表明,我们的方法可以快速,准确地在嘈杂的环境中准确指出感兴趣的对象。因此,它对当前的最新算法实现了重大的性能提高。项目页面:https://www.lamda.nju.edu.edu.cn/chenc/ftd.html代码:https://github.com/lamda-rl/ftd
强化学习(RL)在解决相对复杂的任务方面取得了巨大的成功,但是在现实世界中,RL系统的部署构成了与安全性和鲁棒性有关的重大挑战。本文旨在鉴定并进一步了解这些挑战,以彻底探索安全,强大的RL景观的主要维度,包括算法,道德和实际考虑。我们对方法论和开放问题进行了全面审查,这些问题总结了近年来解决与RL应用程序相关的固有风险的努力。在讨论和提出了针对安全和鲁棒的RL的定义之后,本文将现有的研究作品归类为不同的算法方法,从而增强了RL代理的安全性和鲁棒性。我们研究了不确定性估计,优化方法,探索 - 探索折衷和对抗性训练等技术。环境因素,包括SIM到实际转移和域的适应性,也经过审查,以了解RL系统如何适应各种和动态的环境。人类的参与是分析的组成部分,承认了人类在这种情况下可以扮演的广泛角色。重要的是,为了帮助从业者浏览安全和强大的RL实施的复杂性,本文介绍了从合成的文献中得出的实用清单。清单包括算法设计,培训环境注意事项和道德准则的关键方面。它将作为开发人员和政策制定者的资源,以确保在许多应用程序域中负责RL系统的负责部署。
摘要 - 在某些情况下,任何自主控制器都会不安全。定量确定这些不安全情况何时即将发生的能力对于及时的人类监督,例如货运运输应用至关重要。在这项工作中,我们证明了代理人情况的真正批判性可以牢固地定义为鉴于某些随机行动的奖励的平均减少。可以将实时计算的临界指标(即,不实际模拟随机动作的效果)与真正的临界性进行比较,我们展示了如何利用这些代理指标来产生安全边际,这直接将潜在不正确的行动与预期的损失联系起来,以使其在整体绩效中造成预期损失。我们在ATARI环境中评估了从APE-X和A3C学习的策略的方法,并证明了随着代理的接近故障状态,安全利润如何降低。将安全利润集成到监视部署的代理的程序中,可以实时识别潜在的灾难性情况。
Shukla,Y.,Thierauf C.,Hosseini R.,Tatiya G.和Sinapov J.(2022)急性:自动课程从简单到复杂环境的自动转移到国际自治与多种系统会议论文集(AAMAS),在线,2022年。
。cc-by-nc-nd 4.0国际许可证(未经同行评审证明)获得的是作者/资助者,他授予Biorxiv授予Biorxiv的许可,以永久显示预印本。这是该版本的版权持有人,该版本发布于2023年11月14日。 https://doi.org/10.1101/2023.11.12.566754 doi:Biorxiv Preprint
定量交易(QT)是指在分析金融市场中的数学模型和数据驱动技术的使用,自1970年代以来一直是学术界和金融业的一个流行话题。在过去的十年中,强化学习(RL)在许多领域(例如机器人和视频游戏)中引起了重大兴趣,这是由于其出色地解决了复杂的顺序决策问题。rl的影响无处不在,最近证明了其征服许多挑战QT任务的能力。这是一个蓬勃发展的研究方向,可以探索RL技术在QT任务上的潜力。本文旨在提供对基于RL的QT任务方法的研究工作的全面调查。更具体地说,我们设计了基于RL的QT模型的分类法,以及对最新现状的全面摘要。最后,我们讨论了当前的挑战,并在这个令人兴奋的领域提出了未来的研究指示。
批处理增强学习(RL)旨在利用预收取的数据找到最大化动态环境中预期总奖励的最佳策略。现有方法需要对目标策略在状态或行动上或两者兼有的数据分布引起的分布所引起的分布上绝对连续的假设(例如,不存在非重叠区域)。我们提供了一种新的批次RL算法,该算法允许在离线数据分布和目标策略引起的分布之间的状态和动作空间(例如,在无限 - 休养者马尔可夫决策过程中都具有连续状态和动作之间的奇异性)。我们称我们的算法钢:奇异性吸引的增强学习。我们的算法是由对销售评估进行的新错误分析的动机,在该评估中,我们使用最大的平均差异以及分布强劲的优化,以表征由可能的奇异性引起的非政策评估的误差,并启用模型外额外的模型。通过利用悲观的思想,在某些技术条件下,我们为我们提出的算法提供了第一个有限样本的遗憾保证。与现有算法相比,只需仅需最少的数据覆盖假设即可提高批量RL的适用性和鲁棒性。另外,提出了一种几乎没有调谐的两步自适应钢。广泛的仿真研究和一个(半真实的实验实验)对我们方法在处理批处理RL中可能的奇异性方面的出色表现。