我们研究一类受约束的加强学习(RL)问题,其中在训练之前未确定多个结合规格。由于奖励最大化目标和约束满意度之间的不可罚款,确定适当的约束规格是一项挑战,这在决策制定方面无处不在。为了解决此问题,我们提出了一种新的约束RL方法,以搜索政策和约束规格。这种方法的特征是根据学习意义中介绍的重新设备成本放松约束的适应。由于此特征模仿了生态系统如何通过改变操作来适应破坏,因此我们的方法被称为弹性约束RL。Specifically, we provide a set of sufficient conditions that balance the con- straint satisfaction and the reward maximiza- tion in notion of resilient equilibrium, propose a tractable formulation of resilient constrained policy optimization that takes this equilib- rium as an optimal solution, and advocate two resilient constrained policy search algorithms with non-asymptotic convergence guarantees on the optimality gap and constraint satis-派系。此外,我们证明了我们方法在计算实验中的优点和有效性。
主要关键词