机器人舰队通过与环境互动而产生的大量异质流数据筒仓,远远超过可以轻松存储或传播的东西。同时,机器人团队应通过各种环境中的异质体验共同获得多样化的技能。我们如何在不传输或集中舰队规模数据的情况下启用此类车队级学习?在本文中,我们调查了从这种分布式异质数据集中的策略合并(POME)作为潜在解决方案。为了在车队环境中有效合并政策,我们提出了fleet -m erge,这是一个分离的学习的实例化,该实例化说明了用复发神经网络参数控制控制策略时会产生的置换不变性。我们表明,f leet -m erge巩固了在元世界环境中对50个任务进行培训的政策的行为,并且在测试时几乎所有培训任务的表现都很好。此外,我们引入了一种新型的机器人工具使用基准,即f leet -t ools,用于构图和接触良好的机器人操纵任务中的车队政策学习,以验证基准中的f leet -m erge的效率。1
主要关键词