摘要。受到跨各个应用领域的反相反优化(IO)的最新成功的启发,我们提出了一种新型的离线增强学习(ORL)算法,用于连续状态和动作空间,利用IO文献中的凸损失函数,称为“凸丢失函数”。为了减轻在ORL问题中通常观察到的分布变化,我们进一步采用了强大的,非毒性模型预测控制(MPC)专家,使用来自模型不匹配的内在信息来指导动力学的名义模型。与现有文献不同,我们强大的MPC专家享有确切且可拖延的凸重新印象。在这项研究的第二部分中,我们表明,受提议的凸损失功能培训的IO假设类别具有丰富的表现力,并且在使用Mujoco基准的低DATA基准中的最先进的方法(SOTA)方法进行了竞争性绩效,同时使用了三个较少的资源,需要很少有参数,几乎需要。为了促进结果的可重复性,我们提供了实施提出算法和实验的开源软件包。
主要关键词