DR-MPC:真实社会导航的深度残留模型预测控制

机器人如何安全地在表现出复杂运动模式的人们周围驾驶?模拟中的强化学习(RL)或深RL(DRL)具有一些希望,尽管许多先前的工作取决于模拟器无法精确地捕获真实人类运动的细微差别。为了解决这一差距,我们提出了深层剩余模型预测控制(DR-MPC),这是一种使机器人能够快速安全地从现实世界人群导航数据中执行DRL的方法。通过将MPC与无模型DRL融合,DR-MPC克服了大数据要求和不安全初始行为的传统DRL挑战。 DR-MPC…

来源:Apple机器学习研究

机器人如何安全地在表现出复杂运动模式的人们周围驾驶?模拟中的强化学习(RL)或深RL(DRL)具有一些希望,尽管许多先前的工作取决于模拟器无法精确地捕获真实人类运动的细微差别。为了解决这一差距,我们提出了深层剩余模型预测控制(DR-MPC),这是一种使机器人能够快速安全地从现实世界人群导航数据中执行DRL的方法。通过将MPC与无模型DRL融合,DR-MPC克服了大数据要求和不安全初始行为的传统DRL挑战。 DR MPC通过基于MPC的路径跟踪初始化,并逐渐学会与人类更有效地相互作用。为了进一步加速学习,安全组件估计机器人遇到过分分布状态并引导其远离可能的碰撞。在仿真中,我们表明DRMPC在先前工作(包括传统的DRL和残留DRL模型)大大优于先前的工作。现实世界实验表明,我们的方法成功地使机器人能够使用少于4个小时的培训数据来浏览各种拥挤的情况(视频:https://youtu.be/guzlgbk60uy)。