摘要:机器人系统越来越多地用于工业自动化,诸如抛光需要敏捷性和合规行为等接触任务。这些任务很难建模,从而使经典控制具有挑战性。深钢筋学习(RL)通过直接从数据中启用模型和控制策略来提供有希望的解决方案。但是,其应用于现实世界问题的应用受数据效率低下和不安全探索的限制。自适应混合RL方法将经典控制和RL自适应地结合在一起,结合了两者的优势:来自RL的控制和学习的结构。这导致了数据效率和勘探安全性的提高。但是,它们对硬件应用程序的潜力仍然没有得到充实的态度,迄今为止没有对物理系统的评估。这种评估对于在现实世界中充分评估这些方法的实用性和有效性至关重要。这项工作介绍了用于机器人抛光的混合RL算法CHEQ的实验证明,并具有可变阻抗,这是一项需要精确力和速度跟踪的任务。在模拟中,我们显示可变阻抗会增强抛光性能。我们将独立的RL与自适应混合RL进行了比较,这表明Cheq在遵守安全限制的同时可以实现有效的学习。在硬件上,Cheq实现了有效的抛光行为,只需要八个小时的训练,只会发生五次失败。这些结果突出了自适应混合RL对于直接在硬件上训练的真实世界,接触式任务的潜力。