Loading...
机构名称:
¥ 2.0

在强化学习领域的持续学习问题(通常称为非固定强化学习)被确定为对强化学习的应用的重要挑战。我们证明了最坏情况的复杂性结果,我们认为这会捕捉到这一挑战:在强化学习问题中修改单个州行动对的概率或奖励需要几乎与状态数量一样大的时间以保持价值功能的最新功能,除非有强的指数时间假设(SETH)为false;塞思(Seth)是p̸= np猜想的广泛接受的加强。回想一下,在当前应用学习中的状态数量通常是天文学的。相比之下,我们表明,仅添加新的州行动对就更容易实现。关键字:非平稳加强学习,细粒度的复杂性

非平稳强化学习的复杂性

非平稳强化学习的复杂性PDF文件第1页

非平稳强化学习的复杂性PDF文件第2页

非平稳强化学习的复杂性PDF文件第3页

非平稳强化学习的复杂性PDF文件第4页

非平稳强化学习的复杂性PDF文件第5页

相关文件推荐

2024 年
¥6.0
2024 年
¥2.0
2024 年
¥4.0
2025 年
¥1.0