Loading...
机构名称:
¥ 2.0

强化学习中的一个重要问题是设计了学会在环境中安全解决任务的代理。一个常见的解决方案是定义奖励功能的惩罚或到达不安全状态时要最小化的成本。但是,设计奖励或成本功能是非平凡的,并且可以随着问题的复杂性而增加。为了解决这个问题,我们调查了Minmax罚款的概念,这是不安全状态的最小罚款,导致安全最佳政策,无论任务奖励如何。我们通过考虑环境直径和可控性来得出该惩罚的上限和下限。此外,我们提出了一种简单的算法,以便在学习任务政策的同时估算这种罚款。我们的实验证明了这种方法在使代理能够在高维连续控制环境中学习安全策略的有效性。

rosarl:仅奖励安全的加固学习

rosarl:仅奖励安全的加固学习PDF文件第1页

rosarl:仅奖励安全的加固学习PDF文件第2页

rosarl:仅奖励安全的加固学习PDF文件第3页

rosarl:仅奖励安全的加固学习PDF文件第4页

rosarl:仅奖励安全的加固学习PDF文件第5页