我们研究了无限 - 奖励马尔可夫决策过程(MDP)的无模型增强学习(RL)算法,这更适合涉及不持续操作的应用不分为情节。与情节/折扣的MDP相反,对于平均奖励设置,对无模型RL算法的理解理解相对不足。在本文中,我们考虑使用模拟器的在线设置和设置。与现有结果相比,我们开发了具有计算高效的无模型算法,以备受遗憾/样本的复杂性。在在线设置中,我们基于降低方差降低Q学习的乐观变体设计算法,UCB-AVG。我们表明UCB- AVG达到了遗憾的束缚e O(S 5 A 2 SP(H ∗)√
注意:由于实施了新的FIS,要求学生打印出费用Challan,并将费用将费用存入巴基斯坦的HBL银行的任何分支机构。上述安排仅针对本学期。给您带来的不便是遗憾的。“在线”付款的设施不可用。
s 2 ak遗憾的上限,其中s,a,k,h,t = kh和β分别代表状态,动作,情节,时间范围,总时间段数量和风险参数的数量。它与RSVI2(Fei等人,2021年)匹配,与新的分布分析有关,重点是回报的分布,而不是与这些回报相关的风险值。据我们所知,这是第一个遗憾的分析,即在样本复杂性方面桥接了DRL和RSRL。要解决无模型DRL算法中固有的计算算法,我们提出了一种带有分布表示的替代DRL算法。这种方法有效地表示使用重新定义的分布类别的任何有限分布。在保持既定的后悔界限的同时,它显着扩大了计算效率。
§ 探索:你必须尝试未知的动作来获取信息 § 利用:最终,你必须使用你所知道的东西 § 遗憾:即使你聪明地学习,你也会犯错 § 抽样:因为偶然,你必须反复尝试 § 难度:学习比解决已知的 MDP 困难得多
可以证明,UCB的遗憾在渐近上是最佳的,请参见Lai和Robbins(1985),渐近的适应性分配规则;或2018年Bandit算法书籍的第8章在线可在线提供,网址为https://banditalgs.com/。
我们对学习算法感兴趣,该算法可在单个卖家面对单个策略性买家的重复情境标价拍卖中优化收益。在我们的设定中,买家最大化其预期累积折现盈余,并且假设他对商品的估价是 ad 维情境(特征)向量的固定函数。我们引入了一种新颖的确定性学习算法,该算法基于二分法的思想,策略遗憾上界为 O(log 2 T)。与之前的研究不同,我们的算法不需要对情境信息的分布做出任何假设,并且遗憾保证适用于任何特征向量的实现(对抗性上界)。为了构建我们的算法,我们非平凡地采用了积分几何技术来对抗买家策略性,并改进了惩罚技巧以在情境拍卖中发挥作用。
我们开发了一种一般理论,以优化顺序学习概率的频繁遗憾,其中有效的强盗和强化学习算法可以从统一的贝叶斯原理中得出。我们提出了一种新颖的优化方法,以在每一轮中产生“算法信念”,并使用贝叶斯后代做出决定。创建“算法信念”的优化目标,我们称其为“算法信息比”,代表了一种有效地表征任何算法的频繁遗憾的Intrinsic复杂性度量。据我们所知,这是以通用且最佳的方式使贝叶斯型算法保持不含和适用于对抗设置的第一种系统性方法。此外,算法很简单且通常可以实现。作为一种主要应用,我们为多臂匪徒提供了一种新颖的算法,该算法在随机,对抗性和非平稳环境中实现了“最佳世界”的表现。我们说明了这些原理如何在线性匪徒,强盗凸优化和增强学习中使用。