摘要:结合域随机化和强化学习是一种广泛使用的方法,可以获得可以弥合模拟与现实之间差距的控制策略。但是,现有方法对域参数分布的形式进行了限制假设,该假设阻止了它们利用域随机化的全部功能。通常,选择每个参数的概率分布(例如,正常或统一)的受限制家庭。此外,基于深度学习的直接方法需要不同的模拟器,这些模拟器要么不可用,要么只能模拟有限的系统。这种僵化的假设降低了域在机器人技术中的适用性。基于最近提出的无神经可能性的内引入方法,我们引入了神经后域随机化(NPDR),这是一种算法,该算法在从随机模拟器中学习策略和在贝叶斯时尚中的模拟器参数上的策略之间交替。我们的方法仅需要一个参数化的模拟器,粗糙的先验范围,一个策略(可选的具有优化例程)和一小部分现实世界观察。最重要的是,域参数分布不限于特定族,可以将参数关联,并且模拟器不必可区分。我们表明,所提出的方法能够充分地在域参数上适应后部,以更紧密地匹配观察到的动力学。此外,我们证明了NPDR可以使用比可比算法更少的现实世界推出来学习可转移的策略。
主要关键词