强化学习已被证明对人形机器人的运动有效,但是在复杂环境中实现稳定的运动仍然具有挑战性。humanoid机器人必须在导航并不断适应与环境的相互作用时保持平衡。对这些机器人环境动力学的深入了解对于实现稳定的运动至关重要。由于有特权信息,即机器人无法直接访问,以扩展可用的空间,因此先前基于强化的学习方法是从部分观察结果中重建环境信息,或者从部分观察中重建机器人染色信息,但它们从完全捕获的机器人环境相互作用的动力学中却缺乏。在这项工作中,我们提出了一个基于HU Manoid Robots(HUWO)的物理互动模型的端到端增强学习控制框架。我们的主要创新是引入物理互动世界模型,以了解机器人与环境之间的动态影响。另外,为了解决这些相互作用的时间和动态性质,我们采用了变压器-XL的隐藏层进行隐式建模。所提出的框架可以在复杂的环境(例如斜坡,楼梯和不连续的表面)中展示强大而灵活的运动能力。,我们使用Zerith 1机器人(在模拟和现实世界部署中)验证了该方法的鲁棒性,并将我们的Huwo与基线与基线进行了定量比较,并具有更好的穿越性和命令跟踪。
主要关键词