多目标增强学习(MORL)已成为强化学习(RL)的重要子场[13,24]。到目前为止,知识主要从单目标RL(SORL)流向Morl,SORL算法创新适应了多个目标的背景[2,6,22,34]。本文反驳了这种趋势,正如我们认为,基于公用事业的范式广泛用于Morl [5,13,21],与SORL具有相关性和好处。我们提出了一个基于公用事业的RL(UBRL),统一SORL和MORL的一般框架,并讨论了单目标问题的好处 - 特别是多政策学习的潜力,可以更大的灵活性和对代理行为的决策者控制。我们还从Morl研究中突出了有关基于公用事业方法的算法含义的经验教训,作为未来单目标UBRL研究的指南。