Loading...
机构名称:
¥ 1.0

我们研究了具有已知动态但未知奖励功能的平均奖励和交流马尔可夫决策过程(MDP)中的遗憾最小化。尽管在此类MDP中学习比完全未知的MDP更容易,但它们仍然在很大程度上是挑战,因为它们包括特殊情况,例如组合半伴侣等大类问题。以统计上有效的方式利用遗憾最小化的过渡功能的知识似乎在很大程度上没有探索。猜想,即使有已知的过渡,我们即使在通用MDP中实现精确的最佳性也是NP-HARD,因此我们专注于计算有效的放松,以实现Order-Timpimal-Timal-Topimal-Mic MIC的遗憾而不是精确的最佳性。我们通过基于流行的匪徒最小经验差异策略引入一种新颖的算法来填补这一空白。提出的算法的关键组成部分是一个经过精心设计的停止标准,利用固定策略引起的复发类别。我们得出了一种非渐近,问题依赖性和对数的遗憾,该算法依赖于利用该结构的新颖遗憾分解。我们进一步提供了有效的实施和实验,以说明其有希望的经验绩效。关键字:平均奖励马尔可夫决策过程,遗憾的最小化,对数遗憾,马尔可夫链,经常性课程

对数遗憾地传达MDP:使用匪徒利用已知的动态

对数遗憾地传达MDP:使用匪徒利用已知的动态PDF文件第1页

对数遗憾地传达MDP:使用匪徒利用已知的动态PDF文件第2页

对数遗憾地传达MDP:使用匪徒利用已知的动态PDF文件第3页

对数遗憾地传达MDP:使用匪徒利用已知的动态PDF文件第4页

对数遗憾地传达MDP:使用匪徒利用已知的动态PDF文件第5页

相关文件推荐