获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
强化学习(RL)已提出了其在解决目标的顺序任务方面的潜力。然而,凭借RL代理的不断增长的能力,确保道德负责的代理行为成为紧迫的关注。以前的方法通过在运行时为每个动作分配道德分数,包括道德考虑。但是,这些方法在评估不道德行动时并不能说明开采状态的潜在道德价值。这限制了在道德行为的不同方面和行动效用之间找到权衡的能力。在本文中,我们的目标是通过在培训期间不符合的RL目标添加限制来考虑道德得分,从而动态地适应了策略功能。通过结合拉格朗日优化和元梯度学习,我们开发了一种RL方法,该方法能够在决策过程中找到不道德行为与绩效之间的权衡。