点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
我们研究了无限 - 奖励马尔可夫决策过程(MDP)的无模型增强学习(RL)算法,这更适合涉及不持续操作的应用不分为情节。与情节/折扣的MDP相反,对于平均奖励设置,对无模型RL算法的理解理解相对不足。在本文中,我们考虑使用模拟器的在线设置和设置。与现有结果相比,我们开发了具有计算高效的无模型算法,以备受遗憾/样本的复杂性。在在线设置中,我们基于降低方差降低Q学习的乐观变体设计算法,UCB-AVG。我们表明UCB- AVG达到了遗憾的束缚e O(S 5 A 2 SP(H ∗)√
主要关键词