引言增强学习(RL)在改善各种应用程序中的在线决策方面表现出了很大的成功(包括游戏)(Silver等人2017),机器人控制(Andrychowicz等人。2020)等。但是,在许多实际情况下,必须考虑不仅仅是最大化奖励。安全性,道德考虑和对预定义约束的影响是至关重要的方面,特别是在机器人,财务和医疗保健等关键领域中。rl具有瞬时约束,通过引入代理必须在学习过程中的每个时间步骤中遵守的约束来解决这一需求。与对整个轨迹或情节施加的共同存在不同(Wei,Liu和Ying 2022a,B; Ghosh,Zhou和Shroff 2022; Ding等人2021;刘等。2021a; Bura等。2021; Wei等人。2023;辛格(Singh),古普塔(Gupta)和史罗夫(Shroff)2020;丁等。2021; Chen,Jain,
主要关键词