摘要 - 腿部机器人控制的最新进展是由无模型的强化学习驱动的,但我们探索了可区分模拟的潜力。不同的模拟有望更快地收敛和更稳定的训练,但是到目前为止,其用于腿部机器人控制的使用仍然限于模拟。可区分仿真的主要挑战在于由于接触良好的环境中的不连续性(例如四倍的运动)而导致机器人任务的复杂优化土地。这项工作提出了一个新的,可区分的模拟框架来克服这些挑战。关键思想涉及将复杂的全身仿真解耦,该模拟可能由于接触而表现出不连续性,分为两个单独的连续域。随后,我们将简化模型产生的机器人状态与更精确,不可差的模拟器对齐,以保持足够的模拟精度。我们的框架可以使用单个模拟机器人在几分钟内学习四足动物,而无需任何并行化。随着GPU并行化的增强,我们的方法允许四倍的机器人在挑战地形上掌握各种各样的机车技巧,包括小跑,步伐,绑定和gallop。此外,我们的政策在现实世界零击中实现了强大的运动性能。据我们所知,这项工作代表了使用可区分模拟控制真正四倍的机器人的首次演示。这项工作提供了一些重要的见解,以便在现实世界中使用可区分的模拟进行腿部运动。
主要关键词