摘要:本研究重点是自动驾驶,自主车道变化领域的关键任务。自主车道变更在改善交通流量,减轻驾驶员负担和降低交通事故风险方面起着关键作用。然而,由于车道变化场景的复杂性和不确定性,自主巷变化的功能仍然面临着挑战。在这项研究中,我们使用深钢筋学习(DRL)和模型预测控制(MPC)进行了自主巷更换模拟。具体而言,我们使用参数化的软侵略者 - 批评(PASAC)算法来训练基于DRL的车道变化策略,以输出离散的车道更换决策和连续的纵向车辆加速度。我们还基于不同车道的最小预测汽车跟踪成本来选择车道选择。首次比较了在变化决策的背景下DRL和MPC的性能。模拟结果表明,在相同的奖励/成本功能和交通流下,MPC和PASAC的碰撞率为0%。PASAC在平均奖励/成本和车辆速度方面表现出与MPC相当的性能。
反事实遗憾最小化(CFR)是一种用于寻找不完美信息游戏的NASH平衡策略的算法系列。CFR已被用来达到许多基准游戏中的里程碑,例如Texas Hold'Em [2]和Texas No-Limit Texas Hold'Em [3]。值得注意的是,这些算法使用了CFR的表格形式,其中将策略保存在表格中,以解决代理可以找到自己的所有可能情况。在建模现实世界游戏时,该表可能会变得过多。为了压缩模型,信息摘要用于将不同的情况列入混合在一起。这些抽象的问题是它们通常需要广泛的域知识,而抽象游戏中的平衡可能无法准确反映整个游戏的均衡[4]。
使用自然语言动作空间的强化学习通常由于自然语言的组合而遭受维度的诅咒。先前的研究利用了预验证的语言模型来限制动作语义并减少动作空间的大小。然而,由于经过验证的模型通常是在一般的竞争中训练的,因此在预审计的模型中编码的先验和特定RL环境的特征之间可能存在不匹配的不匹配。为了解决这个问题,我们提出了相互信息的正规政策选择,MIPO。MIPO可以使动作空间的隐式和动态减少。从审计的语言模型提供的先验开始,我们的方法基于相互信息正常化的指导在学习过程中动态调整了先验。从理论上讲,我们证明了这种政策优化过程会导致相互信息正规化RL目标的单位改进。从经验上讲,我们在各种环境中进行了实验,并证明了MIPO的有效性。
动态环境中的抽象运动计划是一项具有挑战性的机器人任务,需要避免碰撞和实时计算。最新的在线方法作为速度障碍(VO)保证安全的本地计划,而基于强化学习或图形离散化的全球计划方法在计算上效率低下或不可证明是碰撞的安全性。在本文中,我们将蒙特卡洛树搜索(MCT)与VO结合起来,以修剪不安全的动作(即相撞速度)。以这种方式,即使在非常大的动作空间(60个动作)中,我们可以进行极少的MCT模拟计划,比使用许多模拟的纯MCT获得更高的累积奖励和更低的计算时间。此外,由于与VO的动作修剪,我们的方法可以保证避免碰撞,而纯MCT则没有。在本文中铺平了在实际机器人和多代理分散运动计划上计划MCT计划的道路。
在本文中,我们提出了 Skip-Plan,一种用于教学视频中程序规划的压缩动作空间学习方法。当前的程序规划方法都遵循每个时间步的状态-动作对预测并相邻地生成动作。虽然它符合人类的直觉,但这种方法始终难以应对高维状态监督和动作序列的错误积累。在这项工作中,我们将程序规划问题抽象为数学链模型。通过跳过动作链中不确定的节点和边,我们以两种方式将长而复杂的序列函数转换为短而可靠的序列函数。首先,我们跳过所有中间状态监督,只关注动作预测。其次,我们通过跳过不可靠的中间动作将相对较长的链分解为多个短的子链。通过这种方式,我们的模型在压缩动作空间中探索动作序列内各种可靠的子关系。大量实验表明,Skip-Plan 在程序规划的 CrossTask 和 COIN 基准测试中实现了最先进的性能。
增强学习(RL)是合成机器人运动技能的强大工具。但是,实践者必须仔细选择学习的动作空间,这一决定通常以直觉为指导。例如,轮式机器人可能与车轮速度动作空间,具有关节位置的腿部机器人以及带有笛卡尔空间目标的操纵器相关联。对于一些精心研究的任务,该领域已在共同的动作空间上汇聚。例如,位置控制动作空间被广泛用于学习腿部运动[1,2,3]。但是,为了启动机器人的运动,这些位置命令必须通过反馈定律转换为扭矩,以执行模拟和控制真实的机器人。这提出了几个问题:位置控制的哪些属性使其对于腿部运动任务特别有用,而不是直接学习使用扭矩行动?位置控制对所有类型的机器人任务有用,还是其他能力更有效的动力空间对具有不同动态的系统更有效?其他未经研究的任务将如何从不同的动作空间设计选择中受益?
基于视觉的机器人布的展开最近取得了巨大进步。但是,先前的工作主要依靠价值学习,并且没有完全探索基于政策的技术。最近,在大型语言模型上进行增强学习的成功表明,该政策级别算法可以通过庞大的空间来增强政策。在本文中,我们介绍了Bloth-PPO,该框架采用了基于演员批判性建筑的策略级别算法,以增强具有巨大的10 6个附加空间的预训练模型,该模型与观察到的任务相符。为此,我们将布置问题重新定义为部分观察到的马尔可夫决策过程。使用监督的培训阶段来培训我们政策的基准模型。在第二阶段,近端政策优化(PPO)用于指导观测一致的附属空间内的套头文模型。通过优化和更新策略,我们提出的方法增加了服装的表面积,以在软体操纵任务下展开的布料。实验结果表明,我们提出的框架可以进一步改善其他最先进方法的展开性能。我们的项目可从https:// vpx- ecnu.github.io/clothppo-website/获得。
摘要:有效但充分的探索仍然是强化学习(RL)的关键挑战,尤其是对于马尔可夫决策过程(MDP),具有巨大的动作空间。以前的方法通常涉及将原始动作空间投射到潜在空间或采用环境动作面具以减少动作的可能性。尽管如此,这些方法通常缺乏可解释性或依赖专家知识。在这项研究中,我们介绍了一种新颖的方法,用于自动降低具有离散动作空间的环境中的动作空间,同时保持可解释性。所提出的方法以双重目的学习了特定于州的面具:(1)消除对MDP最小影响的动作,以及(2)在MDP中具有相同行为后果的汇总行动。具体来说,我们介绍了一个新颖的概念,称为国家(BMA)的行动(BMA)来量化MDP内行动的行为后果,并设计一个专门的掩码模型以确保其二进制性质。至关重要的是,我们提出了一个实用的学习程序,用于培训掩模模型,利用任何RL策略收集的过渡数据。我们的方法旨在插入插件和适应所有RL策略,为了验证其有效性,将其集成到两种突出的RL算法中,即DQN和PPO。从迷宫,Atari和µRTS2获得的实验结果显示在RL学习过程中有很大的加速,并且引入方法促进了促进的性能改善。
最近的强化学习方法表明,爆炸性政策的强大能力可解决连续控制基准。潜在的粗糙动作空间离散通常会产生有利的探索特征,而在与最佳控制理论一致的情况下,最终绩效并不明显地遭受损失。在机器人技术应用中,平滑控制信号通常是降低系统磨损并提高能源效率的首选,而通过行动成本正规化可能会损害探索。我们的工作旨在通过将离散的动作空间从粗糙控制到精细的控制分辨率来弥合这一绩效差距。我们利用脱钩Q学习的最新结果来扩展我们对高维作用空间的方法,直至DIM(A)= 38。我们的工作表明,自适应控制与价值分解相结合产生了简单的仅批评算法,这使得能够在连续的控制任务上具有出乎意料的强劲性能。关键字:连续控制; Q学习;价值分解;增长分辨率