Loading...
机构名称:
¥ 3.0

逆增强学习(IRL)由于其有效性从专家的演示中恢复奖励功能的有效性,因此一直在接受大量的研究工作,这些奖励功能可以很好地解释专家的行为。在实际应用中,约束无处不在,与一组约束相比,奖励功能比单个奖励功能更好地解释了复杂的行为(Malik等,2021)。因此,提出了逆约束强化学习(ICRL)以从专家的示范中学习限制。IRL上的最新目前(Fu等,2018; Imani&Ghoreishi,2021)和ICRL(Scobee&Sastry,2019年)可以在不受约束的环境中学习奖励功能,或者可以推断出与获得地面真相奖励但不能推断出两者的约束。为了解决这一挑战,提出了分布式ICRL(Liu&Zhu,2022)来学习专家的奖励功能和约束。在本文中,我们遵循(Liu&Zhu,2022)中的ICRL的定义,这意味着学习专家的奖励功能和约束。

元逆约束增强...

元逆约束增强...PDF文件第1页

元逆约束增强...PDF文件第2页

元逆约束增强...PDF文件第3页

元逆约束增强...PDF文件第4页

元逆约束增强...PDF文件第5页

相关文件推荐

2023 年
¥1.0