Loading...
机构名称:
¥ 1.0

摘要 - 机器人武器应该能够学习新任务。这里的一个框架是强化学习,在该学习中,机器人具有编码任务的奖励函数,并且机器人自主学习的动作以最大程度地提高其奖励。现有的强化学习方法通​​常将此问题构成马尔可夫决策过程,并学习政策(或政策层次结构)以完成任务。这些政策原因是机器人臂需要采取的数百个细粒度的动作:例如,向右移动稍微移动或旋转几个度。但是我们希望机器人执行的操作任务通常可以分解为少数高级运动:例如,到达对象或转动手柄。在本文中,我们提出了一种基于通道的无模型增强学习方法。机器人现在没有学习低级策略,而是学习路点的轨迹,然后使用现有控制器在这些航路点之间进行插值。我们的关键新颖性是将基于Waypoint的设置作为一系列多臂匪徒构建:每个匪徒问题都对应于机器人运动沿线的单路点。从理论上讲,与标准框架相比,对这种重新制定的理想解决方案的遗憾界限较低。我们还引入了一个近似的后固定解决方案,该解决方案一次构建机器人的运动点。跨基准模拟和两个现实世界实验的结果表明,这种提出的方​​法比最先进的基线更快地学习新任务。请参阅此处:https://youtu.be/mmed-lyfq4y

机器人操纵任务的基于Waypoint的强化学习

机器人操纵任务的基于Waypoint的强化学习PDF文件第1页

机器人操纵任务的基于Waypoint的强化学习PDF文件第2页

机器人操纵任务的基于Waypoint的强化学习PDF文件第3页

机器人操纵任务的基于Waypoint的强化学习PDF文件第4页

机器人操纵任务的基于Waypoint的强化学习PDF文件第5页