基于技能的强化学习(RL)方法已经表现出巨大的希望,尤其是在通过层次结构解决长期地平线任务时。这些技能是从离线数据集中学习的任务不足的,可以加速新任务的政策学习过程。然而,由于它们对数据集的固有依赖性,这些技能在不同领域中的应用仍受到限制,当试图通过与数据集域不同的目标域学习基于技能的策略时,它在尝试通过RL学习基于技能的策略时会构成挑战。在本文中,我们提出了一个新颖的离线技能学习框架 - 使用指导的扩散模型来产生从数据集中有限技能扩展的多功能技能,从而增强了对不同领域任务的策略学习的稳健性。具体而言,我们设计了一个基于扩散的技能解码器,并结合层次编码,以将技能嵌入空间分解为两个不同的表示,一种是用于构造域名行为的行为,另一个用于驱散行为中域变化的因素。我们的duskill框架增强了离线学习技能的多样性,从而可以加快针对不同领域的高级政策的学习过程。通过实验,我们表明,Duskill在几个长期任务中都超过了其他基于技能的模仿学习和RL算法,这表明了它的好处,并以几种模仿和在线RL表现出来。
抽象的奖励成型已被证明是加速增强学习过程(RL)代理的有效技术。虽然在经验应用方面取得了成功,但良好的塑形功能的设计原则上的理解较少,因此通常依赖于领域的专业知识和手动设计。为了超越这个限制,我们提出了一种新型的自动化方法,用于设计离线数据的奖励功能,可能被未观察到的混杂偏见污染。我们建议使用从离线数据集计算出的因果状态值上限作为对最佳状态价值的保守乐观估计,然后用作基于潜在的基于潜在的重新塑造(PBR)的状态电位。根据UCB原则,将我们的塑造功能应用于无模型学习者时,我们表明,它比学习者而没有塑造的学习者享有更好的差距遗憾。据我们所知,这是通过在线探索中限制PBR的第一个依赖差距的遗憾。模拟支持理论发现。
具有 Wi-Fi 功能的 Android 手机可提供智能浏览功能。通过利用此功能,我们将使用每个用户都可以使用的离线数据流,并且可以享受管理员存储在 Raspberry Pi 中的不同媒体。由于,我们将使用具有内置 Wi-Fi 热点功能的 Raspberry Pi 来广播媒体。在 Raspberry Pi 中有一个静态 IP,其中有一些 PHP 文件将访问用户端,并且他们将能够访问 PHP 页面上可用的任何数据。所有这些工作都将在包含 XAMPP 服务器的 Raspbian OS 平台上完成。通过连接到 Raspberry Pi 提供的 WI-FI,您的手机、平板电脑或笔记本电脑能够通过 Raspberry Pi 提供的离线服务器访问数据。可以从用户 android 应用程序中加载、下载和阅读视频、书籍和通知。该系统为管理员和用户提供访问系统的功能。通过此系统,管理员可以添加任何
摘要。受到跨各个应用领域的反相反优化(IO)的最新成功的启发,我们提出了一种新型的离线增强学习(ORL)算法,用于连续状态和动作空间,利用IO文献中的凸损失函数,称为“凸丢失函数”。为了减轻在ORL问题中通常观察到的分布变化,我们进一步采用了强大的,非毒性模型预测控制(MPC)专家,使用来自模型不匹配的内在信息来指导动力学的名义模型。与现有文献不同,我们强大的MPC专家享有确切且可拖延的凸重新印象。在这项研究的第二部分中,我们表明,受提议的凸损失功能培训的IO假设类别具有丰富的表现力,并且在使用Mujoco基准的低DATA基准中的最先进的方法(SOTA)方法进行了竞争性绩效,同时使用了三个较少的资源,需要很少有参数,几乎需要。为了促进结果的可重复性,我们提供了实施提出算法和实验的开源软件包。
(通讯作者电子邮件:zhangyahui@ysu.edu.cn(Yahui Zhang))摘要以及智能转换系统(ITS)和网络技术的快速发展,车辆可以访问更丰富的交通数据,为现在更有效的驱动控制铺平了道路。提出了一种专门针对混合电动卡车导航复杂多相交场景的新型分层生态驾驶策略。最初,模拟场景旨在模拟逼真的卡车遵循场景。随后,使用安全离线深层确定性政策梯度(SDDPG)算法制定了高层卡车跟随策略。此策略完全使用了领先的车辆和交通信号数据的见解。具体来说,考虑安全约束的逻辑判断模块已集成到培训处理中,以最大程度地减少碰撞风险。此外,设置了安全奖励功能,以指导代理学习更安全的动作。转移到下层,使用深厚的增强学习(DRL)技术提出了能量管理策略。引入了独特的奖励成型功能,以有效地指导学习过程。最终,与动态编程(DP)方法相比,提出的方法表明,省油速度为97.46%。关键字:混合动力卡车,卡车跟随,SDDPG,能源管理策略
逐点集中是计算每个状态-动作对的置信区间的标准技术 [Azar 等人,2017 年;Liu 等人,2021 年;Xie 等人,2021b 年;Cui 和 Du,2022 年]。然而,由于 NE 可以是混合策略,因此对 MARL 的直接扩展会受到多智能体诅咒的影响。与逐点集中技术不同,策略集中直接估计每个策略,这允许更严格的置信区间,从而避免对联合动作空间的依赖。我们在第 1.2 节中给出了技术概述。此外,我们表明策略置信界限始终是一个凸函数,因此经验最佳响应策略始终可以是确定性策略,这对计算效率至关重要。
本文介绍了一个全面的基准测试套件,该套件是针对离线安全增强学习(RL)挑战的全面的,旨在促进培训和部署阶段中安全学习算法的发展和评估。我们的基准套件包含三个包:1)精心制作的安全政策,2)D4RL风格的数据集以及环境包装器,以及3)高质量的离线安全RL基线实施。我们采用有条不紊的数据收集管道,该管道由先进的安全RL算法启动,该管道有助于从机器人控制到自动驾驶的38个流行的安全RL任务中跨38个流行的安全RL任务的不同数据集的生成。我们进一步引入了一系列数据后处理过滤器,能够修改每个数据集的多样性,从而模拟各种数据收集条件。此外,我们还提供了普遍的离线安全RL算法的优雅且可扩展的实现,以加速该领域的研究。通过超过50000个CPU和800 GPU小时计算的广泛实验,我们评估和比较了这些基线算法在收集的数据集中的性能,从而提供了有关其优势,局限性和潜在改进领域的见解。我们的基准测试框架是研究人员和从业人员的宝贵资源,促进了在安全性应用中开发更健壮和可靠的离线安全RL解决方案。基准网站可在www.offline-saferl.org上找到。