摘要 - 提升学习(RL)在解决机器人应用程序中的复杂任务方面已获得了吸引力。但是,由于安全风险和培训成本相对较高,其在物理机器人上的部署仍然具有挑战性。为了避免这些问题,RL代理通常会在模拟器上训练,这引入了与模拟与现实之间的差距有关的新问题。本文介绍了一条RL管道,旨在帮助减少现实差距,并促进对现实世界机器人系统的开发和部署RL策略。管道将RL培训过程组织到系统识别和三个培训阶段的初始步骤:核心模拟培训,高保真模拟和现实世界的部署,每个培训都增加了现实主义的水平,以减少SIM卡之间的差距。每个培训阶段都采用输入策略,改进它,然后将改进的政策传递给下一阶段,或者将其循环回去以进一步改进。这个迭代过程一直持续到政策达到所需的绩效为止。通过在监视应用程序中使用的波士顿动力学机器人的案例研究显示了管道的有效性。案例研究介绍了每个管道阶段所采取的步骤,以获取RL代理以控制机器人的位置和方向。
主要关键词