在视觉计划(VP)中,代理商学会了从观察到的动态系统中的目标指导行为,例如,从自我监督的机器人交互中获得的图像。大多数先前关于VP的作品通过在学习的潜在空间中进行计划,低质量的视觉计划和难以训练的培训算法来接近概率。在这里,我们提出了一种直接在图像空间中计划并显示竞争性能的简单VP方法。我们建立在半参数拓扑内存(SPTM)方法上:图像样本被视为图中的节点,从图像序列数据中学到了图形连接,并且可以使用常规的图形搜索方法来执行计划。我们在SPTM上提出了两次修改。首先,我们使用接受稳定训练的对比预测编码训练基于能量的图形连接函数。第二,为了允许在新域中进行零射击计划,我们学习了一个有条件的VAE模型,该模型在给定描述域的上下文中生成图像,并使用这些幻觉样本来构建连接图和计划。我们表明,这种简单的方法在使用计划指导轨迹以下控制器的计划时,就计划的可解释性和成功率而言,这种简单的方法既优于SOTA VP方法。有趣的是,我们的方法可以拾取诸如其几何形状之类的非平凡的视觉属性,并在计划中说明它。
主要关键词