Sutton (2020) 认为世界很大而且很复杂,代理无法精确学习所有需要学习的东西。他建议采用函数近似来学习价值观、策略、模型和状态。Dong 等人 (2022) 从理论上研究了强化学习算法的性能,但没有对环境做出简化假设。他们的工作将重点从对环境做出假设转移到对代理的能力做出假设。Javed 等人 (2023) 通过实证研究了小型代理在大环境中的表现。他们发现,在大世界中,使用较少计算的近似算法可以胜过使用更多计算的精确算法。Kumar 等人 (2023) 表明,当代理受到计算限制时,持续学习是强化学习的必要元素。