尽管我们对机器学习中的公平性的理解已经大大发展,但我们对扩展学习(RL)公平性的理解仍然很新生。大多数诉讼都在一声分类任务中公平。但是,现实世界中支持RL的系统(例如,自动驾驶汽车)的复杂性要复杂得多,因为代理在长时间内在动态环境中运行。为了确保对这些系统的负责任开发和部署,我们必须更好地了解RL中的公平性。在此过程中,我们调查了文献,以提供RL中公平的前沿的最新快照。我们首先要重新查看RL中可能出现公平考虑的地方,然后讨论到目前为止提出的RL公平性的各种定义。我们继续强调了用于在单一和多代理RL系统中实施公平性的方法研究人员,然后展示了已研究了公平RL的不同应用域。最后,我们批判性地研究了文献中的差距,例如在RLHF背景下的公平性,在将来的工作中仍然需要解决这些差距,以便在现实世界中真正实现公平RL。