摘要 - 由于计算机视觉的最新进展,视觉模仿学习在学习一小部分视觉观察中学习的单人操纵任务方面取得了令人印象深刻的进步。然而,从双人视觉演示中学习双人协调策略和复杂的对象关系,并将其推广到新颖的混乱场景中的分类对象仍然是尚未解决的挑战。在本文中,我们将以前的有关基于关键的视觉模仿学习(K-VIL)[1]的工作扩展到了双人操作任务。拟议的BI-KVIL共同提取对象和手,双人协调策略以及子符号任务代表的所谓混合主奴隶关系(HMSR)。我们的双人任务表示形式是以对象为中心的,无独立的和视点为主的,因此可以很好地归因于新颖场景中的分类对象。我们在各种现实世界中评估了我们的方法,展示了其从少数人类演示视频中学习细粒度的双人操作任务的能力。视频和源代码可从https://sites.google.com/view/bi-kvil获得。
主要关键词