点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
在强化学习领域的持续学习问题(通常称为非固定强化学习)被确定为对强化学习的应用的重要挑战。我们证明了最坏情况的复杂性结果,我们认为这会捕捉到这一挑战:在强化学习问题中修改单个州行动对的概率或奖励需要几乎与状态数量一样大的时间以保持价值功能的最新功能,除非有强的指数时间假设(SETH)为false;塞思(Seth)是p̸= np猜想的广泛接受的加强。回想一下,在当前应用学习中的状态数量通常是天文学的。相比之下,我们表明,仅添加新的州行动对就更容易实现。关键字:非平稳加强学习,细粒度的复杂性
主要关键词