摘要 - 近年来,在机器人增强学习(RL)的领域已经取得了显着进步,促进了处理复杂图像观察,在现实世界中训练并结合辅助数据的方法,例如示范和先前的经验。但是,尽管有这些进展,但机器人RL仍然很难使用。在从业者中承认,这些算法的特定实现细节通常与选择算法一样重要(如果不是更多的话)。我们认为,对机器人RL的广泛采用以及机器人RL方法的进一步发展是这种方法的比较,这是这种方法的比较无法访问。为了应对这一挑战,我们开发了一个经过精心实施的库,其中包含有效的非货币深度RL方法,以及用于计算奖励和重置环境的方法,用于广泛采用的机器人的高质量控制器以及许多具有挑战性的示例任务。我们将此库作为社区的资源,描述其设计选择,并提出实验结果。也许令人惊讶的是,我们发现我们的实施可以实现非常有效的学习,以获取PCB董事会组装,有线路由的政策,以及对物体搬迁的平均每政策培训25至50分钟,从而改善了有关文献中类似任务的最先进的结果。这些政策获得了完美或近乎完美的成功率,即使在扰动下,极端的鲁棒性以及表现出紧急的恢复和矫正行为。我们希望这些有希望的结果和高质量的开源实施将为机器人社区提供一种工具,以促进机器人RL的进一步发展。可以在https://serl-robot.github.io/
主要关键词