摘要:涉及多个不同物体的长马操纵任务对模仿学习提出了挑战,结果策略表现出较差的效率,概括和模块化。这些限制的核心是使用图像和绝对坐标系捕获世界状态。没有广泛的演示数据集,这些表示形式将策略限制为在封闭的空间位置,类别内实例甚至任务变化上操作。在本文中,我们提出了一种使用以负担性为中心的坐标框架来解决这些Challenges的方法。通过适当地重新定位此框架并使用此相对坐标系培训基于州的政策,我们证明我们不仅可以学习高度样本效果的操纵行为,而且可以推广到广泛的空间和类别内的范围。更重要的是,我们表明,这种表示使我们能够学习可以无缝组成的独立子验证,以解决复杂的,长的,多对象的任务,并具有对新任务变化的组成概括的模块化。我们在现实世界中涉及5个不同对象,13个类别内对象变化和7个不同的子任务的实际茶服务任务上进行了广泛的验证,这些方法表现出了广泛的空间变化,证明了我们解决整个长途任务的能力,仅需10个演示。视频演示和代码将在polition-decomposition.github.io上找到。
主要关键词