Loading...
机构名称:
¥ 1.0

机器人学习任务是非常密集的和特定于硬件的。因此,使用可用于训练机器人操纵剂的不同离线示范数据集应对这些挑战的途径非常吸引人。火车传输测试结束(TOTO)的基准提供了一个策划的开源数据集,用于离线培训,主要由专家数据组成,还提供了公共离线RL和行为克隆代理的基准分数。在本文中,我们引入了Diffclone,这是一种通过基于扩散的策略学习增强行为克隆剂的离线算法,并在测试时测量了我们方法对真实在线物理机器人的疗效。这也是我们正式提交在Neurips 2023举行的火车及其对方(TOTO)基准挑战的提交。我们尝试了预先训练的视觉表示和试剂策略。在我们的实验中,我们发现MOCO FINETENED RESNET50与其他固定表示形式相比表现最好。目标状态条件和对过渡的映射导致成功率和卑鄙的回报提高。至于代理策略,我们开发了Diffclone,这是一种使用条件扩散改善的行为克隆剂。

diffclone:通过扩散驱动的策略学习

diffclone:通过扩散驱动的策略学习PDF文件第1页

diffclone:通过扩散驱动的策略学习PDF文件第2页

diffclone:通过扩散驱动的策略学习PDF文件第3页

diffclone:通过扩散驱动的策略学习PDF文件第4页

diffclone:通过扩散驱动的策略学习PDF文件第5页

相关文件推荐