bio:Yair Zick是UMass Amherst信息系统与计算机科学学院的助理教授,他指导公平且可解释的决策(FED)小组。在此之前,他曾是NUS计算学院的助理教授。他于2014年获得了南洋技术大学的博士学位(数学),并获得了耶路撒冷希伯来大学的B.Sc(数学,“ Amirim”荣誉计划)。他的研究兴趣包括计算公平部门,计算社会选择,算法游戏理论和算法透明度。他是2011年AAMA最佳学生纸奖,2014年Victor Lesser Ifaamas杰出论文奖,2016 ACM EC最佳纸张奖,2017年新加坡NRF奖学金和2021年IJCAI早期职业奖。
从演示和成对偏好推断奖励函数是将强化学习 (RL) 代理与人类意图相结合的良好方法。然而,最先进的方法通常专注于学习单一奖励模型,因此很难权衡来自多位专家的不同奖励函数。我们提出了多目标强化主动学习 (MORAL),这是一种将社会规范的不同演示组合成帕累托最优策略的新方法。通过维持标量权重的分布,我们的方法能够以交互方式调整深度 RL 代理以适应各种偏好,同时无需计算多个策略。我们在两种场景中通过实证证明了 MORAL 的有效性,这两种场景模拟了交付和紧急任务,需要代理在存在规范冲突的情况下采取行动。总的来说,我们认为我们的研究是朝着具有学习奖励的多目标 RL 迈出的一步,弥合了当前奖励学习和机器伦理文献之间的差距。