人类政策〜人类政策

针对人形机器人的培训操纵政策会涉及数据,从而增强了其跨任务和平台的稳健性和泛化。但是,仅从机器人示范中学习是劳动密集型的,需要昂贵的远程操作数据收获,这很难扩展。本文研究了更可扩展的数据源,即中心的人类示范,以作为机器人学习的跨体型培训数据。我们从数据和建模观点来减轻人形生物与人类之间的实施差距。我们收集了一个以egipentric任务为导向的数据集(PH2D)…

来源:Apple机器学习研究

针对人形机器人的培训操纵政策会涉及数据,从而增强了其跨任务和平台的稳健性和泛化。但是,仅从机器人示范中学习是劳动密集型的,需要昂贵的远程操作数据收获,这很难扩展。本文研究了更可扩展的数据源,即中心的人类示范,以作为机器人学习的跨体型培训数据。我们从数据和建模观点来减轻人形生物与人类之间的实施差距。我们收集了一个以自我为中心的任务为导向的数据集(PH2D),该数据集直接与类人动物操纵示范一致。然后,我们训练人类类动物行为政策,我们将其称为“人类动作”(Humanthansformenter)(HAT)。帽子的国家行动空间均已为人类和人形机器人统一,并且可以将其重新定位为机器人行动。 HAT与较小规模的机器人数据共同训练,直接将人形机器人和人类建模为不同的实施例,而无需其他监督。我们表明,人类数据以更高的数据收集效率提高了HAT的概括和鲁棒性。

†加利福尼亚大学圣地亚哥分校•卡内基·梅隆大学