现代强化学习至少由三个教条调节。第一个是环境聚光灯,它是指我们专注于建模环境而不是代理的倾向。第二个是我们对学习的对待,因为它找到了解决任务的解决方案,而不是适应。第三个是奖励假设,该假设指出,所有目标和目的都可以很好地认为是奖励信号的最大化。这三个教条塑造了我们认为的大部分是强化学习的科学。虽然每种教条在发展该领域都发挥了重要作用,但现在是时候将它们浮出水面并反思它们是否属于我们科学范式的基本成分了。为了实现增强学习作为研究智能代理的规范框架的潜力,我们建议现在是时候将教条完全抛弃,并采用细微差别的方法来解决第三次。