当前的加强学习方法无法直接学习解决最低成本触及的问题的政策,以最大程度地减少受到达到目标并避免不安全状态的限制的累积成本,因为这种新优化问题的结构与当前方法不符。相反,在将所有目标与加权总和结合在一起的情况下解决了一个替代问题。但是,这种替代目标导致次优政策不会直接最大程度地减少累积成本。在这项工作中,我们提出了RC-PPO,这是一种基于加强学习的方法,用于通过使用与汉密尔顿 - 雅各布斯的可及性的连接来解决最低成本的避免问题。经验结果表明,与现有方法相比,RC-PPO以相当的目标率学习政策,而与现有方法相比,在Mujoco Simulator上的一套最低限度到达范围的基准测试套件中的累积成本低多达57%。
主要关键词