作者对原稿中作者之一 Hu-Jun Lee 的名字拼写错误表示遗憾。更正后的作者名单如上所示。皇家化学学会对这些错误以及由此给作者和读者带来的任何不便表示歉意。
我们研究了无限 - 奖励马尔可夫决策过程(MDP)的无模型增强学习(RL)算法,这更适合涉及不持续操作的应用不分为情节。与情节/折扣的MDP相反,对于平均奖励设置,对无模型RL算法的理解理解相对不足。在本文中,我们考虑使用模拟器的在线设置和设置。与现有结果相比,我们开发了具有计算高效的无模型算法,以备受遗憾/样本的复杂性。在在线设置中,我们基于降低方差降低Q学习的乐观变体设计算法,UCB-AVG。我们表明UCB- AVG达到了遗憾的束缚e O(S 5 A 2 SP(H ∗)√
可以证明,UCB的遗憾在渐近上是最佳的,请参见Lai和Robbins(1985),渐近的适应性分配规则;或2018年Bandit算法书籍的第8章在线可在线提供,网址为https://banditalgs.com/。
摘要 - 班迪斯作为序列学习的理论基础,也是现代收获系统的算法基础。但是,推荐系统通常依赖于用户敏感的数据,从而使隐私成为关键问题。本文有助于理解具有可信赖的集中决策者的土匪的差异隐私(DP),尤其是确保零集中差异隐私(ZCDP)的含义。首先,我们根据考虑的输入和相互作用协议进行形式化和比较DP的不同适应性。然后,我们提出了三种私人算法,即ADAC-UCB,ADAC-GOPE和ADAC-OFUL,用于三个土匪设置,即有限的武装匪徒,线性匪徒和线性上下文匪徒。三种算法共享一个通用算法蓝图,即高斯机制和自适应发作,以确保良好的隐私 - 实用性权衡。我们分析并限制了这三种算法的遗憾。我们的分析表明,在所有这些环境中,与遗憾的遗憾相比,强加了ZCDP的价格(渐近)可以忽略不计。接下来,我们将遗憾的上限与第一个Minimax下界补充了与ZCDP的匪徒的遗憾。为了证明下限,我们阐述了一种基于耦合和最佳运输的新证明技术。我们通过实验验证三种不同的匪徒设置的理论结果来得出结论。索引术语 - 差异隐私,多军匪徒,重新分析,下限
3。脱离Bellman的完整性:通过基于模型的返回条件的监督学习[链接] Zhaoyi Zhou,Chuning Zhu,Runlong Zhou,Qiwen Cui,Abhishek Gupta,Simon S. Du ICLR 2024 2024年海报我们研究了Al Al Al Al的长度和弱点。4。强化方差学习中的尖锐方差界限:在随机和确定性环境中两全其美[link] Runlong Zhou,Zihan Zhang,Simon S. Du ICML 2023海报我们提供了一个系统的研究研究,对基于模型和模型的强化学习的方差依赖性遗憾界限,用于制作模型和模型的增强范围。 提出的基于模型的算法既适用于随机和确定性MDP。 5。 潜在马尔可夫决策过程的依赖于方差的和无水平的加固学习[链接] Runlong Zhou,Ruosong Wang,Simon S. Du ICML 2023海报我们为潜在MDPS提供了算法框架(可见上下文),从而实现了第一台无线的最小值遗憾。 我们通过使用对称技术为LMDP提供了一种新颖的LMDP遗憾下限来补充这项研究。 6。 了解在线组合优化的政策优化中的课程学习[链接] Runlong Zhou,Zelin HE,Yuandong Tian,Yi Wu,Yi Wu,Simon S. DU TMLR我们制定了典范的在线组合优化问题,作为潜在的MDP,并为LMDPS的自然政策梯度提供了融合。 我们通过相对条件数的角度显示了课程学习的有效性。 7。强化方差学习中的尖锐方差界限:在随机和确定性环境中两全其美[link] Runlong Zhou,Zihan Zhang,Simon S. Du ICML 2023海报我们提供了一个系统的研究研究,对基于模型和模型的强化学习的方差依赖性遗憾界限,用于制作模型和模型的增强范围。提出的基于模型的算法既适用于随机和确定性MDP。5。依赖于方差的和无水平的加固学习[链接] Runlong Zhou,Ruosong Wang,Simon S. Du ICML 2023海报我们为潜在MDPS提供了算法框架(可见上下文),从而实现了第一台无线的最小值遗憾。我们通过使用对称技术为LMDP提供了一种新颖的LMDP遗憾下限来补充这项研究。6。了解在线组合优化的政策优化中的课程学习[链接] Runlong Zhou,Zelin HE,Yuandong Tian,Yi Wu,Yi Wu,Simon S. DU TMLR我们制定了典范的在线组合优化问题,作为潜在的MDP,并为LMDPS的自然政策梯度提供了融合。我们通过相对条件数的角度显示了课程学习的有效性。7。Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret [Link] Jean Tarbouriech*, Runlong Zhou* , Simon S. Du, Matteo Pirotta, Michal Valko, Alessandro Lazaric NeurIPS 2021 Spotlight, 3 % acceptance rate We propose an algorithm (EB-SSP) for SSP problems, which is the first to achieve minimax optimal regret while无参数。
作者对原始稿件中遗漏通讯作者王荣芳的电子邮件地址深表遗憾。王荣芳的电子邮件地址为 rfwang@qust.edu.cn。英国皇家化学学会对这些错误以及由此给作者和读者带来的任何不便深表歉意。
摘要 - 市场和可再生能源不确定性为商业虚拟发电厂(VPP)的专业面向产品和生成调度问题带来了挑战。为了应对这些挑战,本文提出了一个两阶段的Minimax遗憾(MMR)模型,以获得最佳的VPP产品计划和固定计划策略。为了解决强烈的NP双阶段MMR问题,我们首先将其重新将其重新将其重新定为两阶段的可靠优化(TSRO)问题,然后使用固定的求助方法将其重新构成,然后使用列和构造一代一代算法来解决它,这已经证明了解决TSRO问题的有效性。在数值实验中,我们通过将MMR方法与最大化方法方法和不同假设下的完美信息方法进行比较来评估MMR方法的性能。索引术语 - 虚拟发电厂(VPP),不确定性,min- imax遗憾(MMR),两阶段强大的优化(TSRO),列和构造生成(C&CG)
我们对学习算法感兴趣,该算法可在单个卖家面对单个策略性买家的重复情境标价拍卖中优化收益。在我们的设定中,买家最大化其预期累积折现盈余,并且假设他对商品的估价是 ad 维情境(特征)向量的固定函数。我们引入了一种新颖的确定性学习算法,该算法基于二分法的思想,策略遗憾上界为 O(log 2 T)。与之前的研究不同,我们的算法不需要对情境信息的分布做出任何假设,并且遗憾保证适用于任何特征向量的实现(对抗性上界)。为了构建我们的算法,我们非平凡地采用了积分几何技术来对抗买家策略性,并改进了惩罚技巧以在情境拍卖中发挥作用。