强化学习 (RL) 在实现机器人自主习得复杂操作技能方面前景广阔,但在现实环境中实现这一潜力却充满挑战。我们提出了一个基于视觉的人机协同强化学习系统,该系统在一系列灵巧操作任务中展现出令人印象深刻的性能,包括动态操作、精密装配和双臂协调。我们的方法融合了演示和人工校正、高效的强化学习算法以及其他系统级设计选择,旨在学习在短短 1 到 2.5 小时的训练时间内即可实现近乎完美的成功率和快速循环时间的策略。我们证明,我们的方法显著优于模仿学习基线和先前的强化学习方法,平均成功率提高了 2 倍,执行速度提高了 1.8 倍。通过大量的实验和分析,我们深入了解了该方法的有效性,展示了它如何为反应式和预测式控制策略学习稳健且自适应的策略。我们的结果表明,强化学习确实能够在实际训练时间内直接在现实世界中学习各种基于视觉的复杂操作策略。我们希望这项工作能够激发新一代学习型机器人操作技术,促进工业应用和研究进步。视频和代码可在我们的项目网站 https://hil-serl.github.io/ 获取。
主要关键词