将来,我们希望机器人能够在家庭和医院等非结构化环境中运行,并具有长远的计划能力。尽管从原始观察中获得了深入的强化学习(RL),但很大程度上取决于形状奖励的可用性来指导学习[31,34]。另一方面,在过去的几十年中,已经证明了任务和运动计划可以解决更长的目标定向任务,例如从扭矩控制[20,39,40,43]中制作一杯咖啡。但是,这些方法通常需要预先研究的离散抽象状态,任务表示和过渡模型,例如机器人是否持有杯子以及哪些动作(或扰动)会改变这种抽象状态。在本文中,我们旨在从视频互动数据中学习用于高级抽象计划的离散表示形式,并结合学习的短马控制器。
主要关键词