离线增强学习(RL)的最新进步强调了条件序列建模(CSM)的功能,该范例是一种基于历史轨迹和目标返回的范式,该范式学习了动作分布。然而,由于单个轨迹内的采样回报之间的不一致和在多个轨迹之间的最佳回报之间的不一致,这些方法通常与将最佳轨迹缝合在一起的最佳轨迹拼接在一起。幸运的是,动态编程方法(DP)方法通过利用价值函数来近似每个状态的最佳未来回报,提供解决方案,而这些技术容易出现不稳定的学习行为,尤其是在长期和稀疏回报的情况下。在这些见解的基础上,我们提出了Q值重新授权的变压器(QT),该变压器(QT)结合了变压器的轨迹建模能力与DP方法的最佳未来回报的可预测性。QT学习一个动作值函数,并将最大化行动值的术语整合到CSM的培训损失中,该损失旨在寻求与行为政策紧密相符的最佳动作。对D4RL基准数据集的经验评估证明了QT优于传统的DP和CSM方法,这突出了QT在离线RL中增强最新艺术的潜力。
摘要。受到跨各个应用领域的反相反优化(IO)的最新成功的启发,我们提出了一种新型的离线增强学习(ORL)算法,用于连续状态和动作空间,利用IO文献中的凸损失函数,称为“凸丢失函数”。为了减轻在ORL问题中通常观察到的分布变化,我们进一步采用了强大的,非毒性模型预测控制(MPC)专家,使用来自模型不匹配的内在信息来指导动力学的名义模型。与现有文献不同,我们强大的MPC专家享有确切且可拖延的凸重新印象。在这项研究的第二部分中,我们表明,受提议的凸损失功能培训的IO假设类别具有丰富的表现力,并且在使用Mujoco基准的低DATA基准中的最先进的方法(SOTA)方法进行了竞争性绩效,同时使用了三个较少的资源,需要很少有参数,几乎需要。为了促进结果的可重复性,我们提供了实施提出算法和实验的开源软件包。
摘要虽然模仿学习需要访问高质量的数据,但原则上应以类似或更好的方式在数据质量下进行类似或更好的表现。但是,当前的结果表明,离线RL的性能通常比模仿学习差,而且通常不清楚是什么避免了离线RL的表现。在这项工作中,我们旨在了解当前离线RL算法中的瓶颈。虽然离线RL的表现较差通常是在不完美的价值函数上表现出来,但我们还是问:在学习价值函数,策略或其他内容时,离线RL的主要瓶颈确实是真正的瓶颈吗?为了回答这个问题,我们对(1)价值学习,(2)策略提取和(3)脱机RL问题的策略概括从每个组件的“数据尺度”属性中分析,分析了这些组件如何影响性能。我们进行了两个令人惊讶的观察。首先,选择性提取算法的选择会影响离线rl Sigig的性能和可伸缩性,通常比其基本价值学习目标更重要。例如,广泛使用的价值加权回归目标(例如AWR)无法完全利用学习的价值函数,并且切换到行为调节的策略梯度目标(例如DDPG+BC)通常会导致性能和缩放行为的实质性改善。其次,离线RL的次优性能通常是由于对培训数据的支持,而不是分布状态的策略准确性。虽然大多数当前的离线RL算法并未明确解决此问题,但我们表明,使用次优的但高覆盖范围的数据或即时的策略提取技术可以有效解决实践中的策略概括问题。
抽象的奖励成型已被证明是加速增强学习过程(RL)代理的有效技术。虽然在经验应用方面取得了成功,但良好的塑形功能的设计原则上的理解较少,因此通常依赖于领域的专业知识和手动设计。为了超越这个限制,我们提出了一种新型的自动化方法,用于设计离线数据的奖励功能,可能被未观察到的混杂偏见污染。我们建议使用从离线数据集计算出的因果状态值上限作为对最佳状态价值的保守乐观估计,然后用作基于潜在的基于潜在的重新塑造(PBR)的状态电位。根据UCB原则,将我们的塑造功能应用于无模型学习者时,我们表明,它比学习者而没有塑造的学习者享有更好的差距遗憾。据我们所知,这是通过在线探索中限制PBR的第一个依赖差距的遗憾。模拟支持理论发现。
本文提出了一种使用增强和虚拟现实技术的机器人教学方法。机器人教学对于机器人完成工业生产的几项任务至关重要。尽管有各种方法可以执行机器人操纵的运动计划,但仍需要机器人教学才能进行精确和可靠性。在线教学,其中物理机器人在真实空间中移动以获得所需的运动,并且由于其易于性和可靠性而被广泛执行。但是,需要实际的机器人移动。相比之下,可以在计算空间中完全实现局部教学,并且需要将机器人的周围构造为计算机图形模型。此外,planar显示器不提供3D场景上的精通信息。我们提出的方法可以作为频道教学的使用,但是操作员可以使用头部安装的设备和虚拟3D空间中的指定控制器来直观地操纵机器人。我们通过增强和虚拟现实技术展示了机器人教学的两种方法,并显示了一些实验结果。
桥梁设备:一种袖珍,电池供电的设备,其目标是在两个非动力智能卡之间建立一个连接通道,从而使它们之间的交易能够在它们之间进行。
基于技能的强化学习(RL)方法已经表现出巨大的希望,尤其是在通过层次结构解决长期地平线任务时。这些技能是从离线数据集中学习的任务不足的,可以加速新任务的政策学习过程。然而,由于它们对数据集的固有依赖性,这些技能在不同领域中的应用仍受到限制,当试图通过与数据集域不同的目标域学习基于技能的策略时,它在尝试通过RL学习基于技能的策略时会构成挑战。在本文中,我们提出了一个新颖的离线技能学习框架 - 使用指导的扩散模型来产生从数据集中有限技能扩展的多功能技能,从而增强了对不同领域任务的策略学习的稳健性。具体而言,我们设计了一个基于扩散的技能解码器,并结合层次编码,以将技能嵌入空间分解为两个不同的表示,一种是用于构造域名行为的行为,另一个用于驱散行为中域变化的因素。我们的duskill框架增强了离线学习技能的多样性,从而可以加快针对不同领域的高级政策的学习过程。通过实验,我们表明,Duskill在几个长期任务中都超过了其他基于技能的模仿学习和RL算法,这表明了它的好处,并以几种模仿和在线RL表现出来。
离线增强学习(RL)旨在根据历史数据改善目标政策而不是行为政策。离线RL的一个主要问题是分配转移导致Q值估计的分布转移。大多数现有的作品都集中在行为克隆(BC)或最大化Q学习方法以抑制分布转移。BC方法试图通过将目标策略限制为离线数据来减轻转移,但它使学习的策略高度保守。另一方面,最大化Q学习方法采用悲观的机制来通过根据动作的不确定性来最大化Q值和惩罚Q值来产生动作。但是,生成的措施可能是算法的,从而导致预测的Q值高度不确定,这反过来又将误导该策略以生成下一个动作。为了减轻分配转移的不利影响,我们建议通过统一Q学习和行为克隆以应对探索和剥削难题来隐含和明确地限制政策。对于隐式约束方法,我们建议通过致力于使目标策略和行为策略的行动无法区分的生成对抗网络统一行动空间。对于显式约束方法,我们会提出多重重要性采样(MIS),以了解每个状态行动对的优势权重,然后将其用于抑制或充分使用每个状态行动对。D4RL数据集上的广泛实验表明,我们的方法可以实现出色的性能。MAZE2D数据上的结果表明,MIS与单个重要性采样更好地解决了异质数据。我们还发现MIS可以有效地稳定奖励曲线。关键字:Q学习,行为克隆,悲观机制,多重重要性采样。
离线增强学习(RL)专注于仅从一批先前收集的数据中学习政策。有可能有效利用此类数据集的潜力,而无需进行昂贵或冒险的主动探索。虽然最近的离线多代理RL(MARL)的最新进展表现出了承诺,但大多数现有方法依赖于所有代理商共同收集的大型数据集,或者是独立收集的特定于特定于代理的数据集。前者的方法确保了强大的性能,但提出了可扩展性的问题,而后者则强调可伸缩性以牺牲性能保证为代价。在这项工作中,我们为数据集收集和离线学习提出了一个新颖的可扩展程序。代理首先通过预先指定的信息共享网络一致地收集了不同的数据集,随后学习了连贯的局限性策略,而无需完全可观察到或倒退以完全分散。从理论上讲,这种结构化方法允许精确拟合的Q-材料(FQI)算法[7]的多代理扩展,以高可能性地汇聚到全球范围内,以降至ϵ-Optimal策略。收敛性受到依赖共享信息信息性的错误术语。此外,我们还展示了这种方法如何将FQI监督学习阶段的固有错误与共享信息和未共享信息之间的共同信息绑定。我们的算法,可扩展的多代理FQI(SCAM-FQI),然后在分布式决策问题上评估。经验结果与我们的理论发现一致,这支持了Scam-FQI在达到可伸缩性和政策绩效之间取得平衡的有效性。
摘要 - 预言学习(RL)已被证明在未来的智能无线网络中起着有希望的作用。在线RL已用于无线电资源管理(RRM),接管了传统计划。但是,由于依靠与环境的在线互动,其作用在在线互动不可行的实际,现实世界中受到限制。此外,在现实世界随机环境中的不确定性和风险面前,传统的RL在不确定性和风险面前处于短缺状态。以这种方式,我们为RRM问题提出了一个离线和分配RL方案,可以使用静态数据集启用离线培训,而无需与环境相互作用,并使用退货的分布来考虑不确定性的来源。仿真结果表明,所提出的方案的表现优于常规资源管理模型。此外,这是唯一超过在线RL的方案,比在线RL增长10%。索引术语 - 分布强化学习,离线强化学习,无线电资源管理