摘要 - 在大量数据上预先限制模型,这是AI的流行趋势。但是,由于需要有效的控制动作,为机器人学习收集足够的离线培训轨迹特别昂贵。因此,大多数现有的机器人数据集是从人类专家那里收集的。我们使用称为“机器人自学”的新框架来解决此类数据收集问题,该框架要求机器人自我生成有效的培训数据,而不是依靠人类示威者。我们的关键想法是在状态空间上训练单独的数据生成策略,以自动生成具有不断增长的复杂性的有意义的动作和轨迹。然后,这些生成的数据可进一步用于训练具有强大构图概括功能的视觉策略。我们在两个视觉操作测试台上验证了我们的框架,包括一个多物体堆叠域和流行的RL基准“ Franka Kitchen”。实验表明,对自生数据进行培训的最终视觉政策可以实现需要长马机器人执行的新颖测试目标。项目网站https://sites.google.com/ view/robot-self-teaching。
主要关键词