Loading...
机构名称:
¥ 4.0

平均奖励强化学习(RL)为捕获目标提供了合适的框架(即长期平均奖励)对于持续的任务,通常没有自然的方法来识别折扣面。但是,现有的平均奖励rl al-gorithms具有样本复杂性保证是不可行的,因为它们将马尔可夫决策过程(MDP)的(未知)混合时间输入。在本文中,我们在解决此开放概率方面取得了初步的进展。我们设计一个可行的平均奖励Q-学习框架,不需要任何问题参数作为输入。我们的框架基于折扣Q-学习,同时我们动态地调整了分歧因子(以及有效的地平线),以逐步近似平均值。在同步设置中,我们解决了三个任务:(i)学习一种策略至最佳,(ii)估计具有ϵ准确度的最佳平均值,并且(iii)估计偏差函数(类似于q uncuntion dissed cunction cunction cunciented cunction cunction cunciented cunction cunciented cuntioncracy)。我们表明,通过精心设计的适应方案,(i)可以通过E O(SAT 8 Mix ϵ8)样品来实现,

可行的Q学习,用于平均奖励加强...

可行的Q学习,用于平均奖励加强...PDF文件第1页

可行的Q学习,用于平均奖励加强...PDF文件第2页

可行的Q学习,用于平均奖励加强...PDF文件第3页

可行的Q学习,用于平均奖励加强...PDF文件第4页

可行的Q学习,用于平均奖励加强...PDF文件第5页