尽管如此,发表声明和召见大使似乎还不够,外交部应该采取更严肃的态度。Ghoreishi 告诉《德黑兰时报》,“外交部的职责是组建一支非常强大的法律团队,但不幸的是,外交部并没有关注这个问题。在我看来,不关注舆论对伊朗来说是一场危机。这既指国内媒体,也指国家媒体,以及在处理危害国家安全的情报机构媒体方面。外交部至少可以与法律专家团队协商,对这些媒体提出质疑。这些媒体每天都在违反欧洲和英国的法律。至少可以做的是,一个律师团队记录和归档这些违法行为,并将它们发送给 Ofcom(英国通信监管机构)等机构,该机构负责监控媒体和电视频道,并有权关闭它们。”
逆增强学习(IRL)由于其有效性从专家的演示中恢复奖励功能的有效性,因此一直在接受大量的研究工作,这些奖励功能可以很好地解释专家的行为。在实际应用中,约束无处不在,与一组约束相比,奖励功能比单个奖励功能更好地解释了复杂的行为(Malik等,2021)。因此,提出了逆约束强化学习(ICRL)以从专家的示范中学习限制。IRL上的最新目前(Fu等,2018; Imani&Ghoreishi,2021)和ICRL(Scobee&Sastry,2019年)可以在不受约束的环境中学习奖励功能,或者可以推断出与获得地面真相奖励但不能推断出两者的约束。为了解决这一挑战,提出了分布式ICRL(Liu&Zhu,2022)来学习专家的奖励功能和约束。在本文中,我们遵循(Liu&Zhu,2022)中的ICRL的定义,这意味着学习专家的奖励功能和约束。