摘要 - 我们探讨了中间政策代表如何通过提供如何执行操纵任务的指导来促进概括。现有的表示,例如语言,目标图像和轨迹草图很有帮助,但是这些表示不提供足够的上下文,或提供过多指定的上下文,从而产生较少可靠的策略。我们提出了有关承受能力的条件政策,该政策在任务的关键阶段捕获了机器人的姿势。负担能力提供表达且轻巧的抽象,易于用户指定,并通过从大型互联网数据集中传输知识来促进有效的学习。我们的方法,RT-Fordance是一个层次结构模型,它首先提出了鉴于任务语言的负担计划,然后根据该负担能力计划的政策对执行操纵的计划进行了调节。我们的模型可以灵活地桥接异质的监督来源,包括大型Web数据集和机器人轨迹。我们还在廉价收集内域的负担能力图像上训练模型,使我们能够学习新任务,而无需收集任何其他昂贵的机器人轨迹。我们显示了一系列新颖的任务,RT额外的效果如何超过50%的现有方法的性能,并且我们从经验上证明,负担能力对新型设置是可靠的。视频可从https:// snasiriany提供。me/rt-fordance
主要关键词