我们开发了一种一般理论,以优化顺序学习概率的频繁遗憾,其中有效的强盗和强化学习算法可以从统一的贝叶斯原理中得出。我们提出了一种新颖的优化方法,以在每一轮中产生“算法信念”,并使用贝叶斯后代做出决定。创建“算法信念”的优化目标,我们称其为“算法信息比”,代表了一种有效地表征任何算法的频繁遗憾的Intrinsic复杂性度量。据我们所知,这是以通用且最佳的方式使贝叶斯型算法保持不含和适用于对抗设置的第一种系统性方法。此外,算法很简单且通常可以实现。作为一种主要应用,我们为多臂匪徒提供了一种新颖的算法,该算法在随机,对抗性和非平稳环境中实现了“最佳世界”的表现。我们说明了这些原理如何在线性匪徒,强盗凸优化和增强学习中使用。
§ 探索:你必须尝试未知的动作来获取信息 § 利用:最终,你必须使用你所知道的东西 § 遗憾:即使你聪明地学习,你也会犯错 § 抽样:因为偶然,你必须反复尝试 § 难度:学习比解决已知的 MDP 困难得多
公共许可策略线性上下文匪徒托马斯·克莱恩·布宁(Thomas Kleine Buening),aadirupa saha,Christos dimitrakakis,Haifeng XU神经信息处理系统会议(Neurips),2024年,[PDF],[PDF]逆增强的环境设计 2024, [pdf ] Bandits Meet Mechanism Design to Combat Clickbait in Online Recommendation Thomas Kleine Buening , Aadirupa Saha, Christos Dimitrakakis, Haifeng Xu International Conference on Learning Representations (ICLR), Spotlight Presentation , 2024, [pdf ] ANACONDA: An Improved Dynamic Regret Algorithm for Adaptive Non‑Stationary Dueling Bandits Thomas Kleine Buening,Aadirupa Saha人工智能与统计国际会议(AISTATS),2023年,[PDF] minimax -bayes辅助学习Thomas Kleine Buening*,Christos dimitrakakis*,Hannes Eriksson*,Hannes Eriksson*,Hannes Eriksson*,Divya Grover*,Divya Grove*,Emilio Jorge*国际人工智能和人工智能和统计局(A)
这项工作考虑在线投资组合选择(OPS)和在线学习量子状态,并具有对数损失。在遗憾和效率上设计最佳OPS算法的问题已经开放了30多年(Cover,1991; Cover and Ordentlich,1996; Helmbold等人。,1998; Nesterov,2011年; Orseau等。,2017年; Luo等。,2018年;范·埃文(Van Erven)等。,2020年; Mhammedi和Rakhlin,2022年; Zimmert等。,2022)。在线学习量子状态是对量子设置的OPS的概括(Lin等人,2021; Zimmert等。,2022)。量子状态的维度随量子数的数量而成倍增长,因此相对于维度的可扩展性成为量子设置中的关键问题。我们将这两个问题提出为在线凸优化,其中损失函数是自我一致的障碍,并且相对于凸函数h而平滑。我们用H作为正规器分析了在线镜像的遗憾。然后,根据分析,我们以统一的方式证明了以下内容。用t表示时间范围和d参数维度。
在线学习中的有效探索(AAAI 最佳论文亚军、IJCAI)行星健康问题通常是空间规划问题,其中每个动作都是特定于上下文的,对应于地球上的物理区域。与每个动作相关的地理特征使我们能够使用平滑度假设来关联动作。例如在野生动物保护中,我们预计具有相似地理特征的地区也会有相似的偷猎模式。从数学上讲,我们可以将两个动作的奖励中的这种相似性编码为 Lipschitz 连续性。此外,每个动作(巡逻一组区域)在区域数量上是组合的,但可以分成具有附加、可分解奖励的构成区域。因此,我们引入了一种新的多臂老虎机变体,该变体结合了可分解性和平滑性,在这些奖励估计上强制实施 Lipschitz 连续性假设,以实现明显更快的收敛 [3]。我们表明,这种方法可以改善遗憾界限,并且不依赖于区域数量 N ,与最先进的 ˜ O ( T
在本文中,我们研究了由共同保护线性时间逻辑(LTL)公式描述的高级规格的最佳机器人路径计划问题。我们考虑工作空间的地图几何形状部分已知的场景。具体来说,我们假设有一些未知区域,除非机器人在物理上到达这些区域,否则机器人不知道其继任区域。与基于游戏的标准方法相反,该方法优化了最差的成本,在本文中,我们建议将遗憾用作在这种部分知名的环境中计划的新指标。计划在固定但未知的环境下的计划的遗憾是机器人在事后意识到实际环境时所能实现的实际成本与最佳响应成本之间的差异。我们提供了一种有效的算法,以找到满足LTL规范的最佳计划,同时最大程度地减少其遗憾。提供了关于消防机器人的案例研究,以说明拟议的框架。我们认为,新指标更适合部分知名环境的情况,因为它捕获了实际花费的实际成本与探索未知区域可能获得的潜在收益之间的权衡。
抽象的奖励成型已被证明是加速增强学习过程(RL)代理的有效技术。虽然在经验应用方面取得了成功,但良好的塑形功能的设计原则上的理解较少,因此通常依赖于领域的专业知识和手动设计。为了超越这个限制,我们提出了一种新型的自动化方法,用于设计离线数据的奖励功能,可能被未观察到的混杂偏见污染。我们建议使用从离线数据集计算出的因果状态值上限作为对最佳状态价值的保守乐观估计,然后用作基于潜在的基于潜在的重新塑造(PBR)的状态电位。根据UCB原则,将我们的塑造功能应用于无模型学习者时,我们表明,它比学习者而没有塑造的学习者享有更好的差距遗憾。据我们所知,这是通过在线探索中限制PBR的第一个依赖差距的遗憾。模拟支持理论发现。
免责声明 本文件中提及的任何商业公司或产品并不意味着绿色技术中心和 UNEP-DTU 合作伙伴的认可。禁止将本文件中的信息用于宣传或广告目的。商标名称和符号仅用于编辑目的,无意侵犯商标或版权法。我们对无意中造成的任何错误或遗漏深表歉意。
价值函数分解已成为在培训和分散执行范式下进行合作多代理增强学习的普遍方法。这些算法中的许多算法通过使用代理实用程序的单调混合函数来分配最佳的关节作用功能,以确保分散决策的关节和局部选择之间的相干性。尽管如此,利用单调混合函数也会引起表示局限性,并且在单调函数类别上找到无约束的混合函数的最佳投影仍然是一个开放的问题。在本文中,我们提出了QPRO,该QPRO对价值函数分解的最佳投影问题置于遗憾的是对不同过渡的投影权重的最小化。可以使用Lagrangian乘数方法放松和解决此优化问题,以遵守封闭形式的最佳投影权重,在该方法中,我们通过最大程度地减少预期收益的遗憾政策,从而缩小最佳和受限单调混合功能之间的差距,从而增强单调值函数分支。我们的实验证明了我们方法的有效性,表明在具有非单调价值函数的环境中的性能提高了。
将大语言模型(LLM)与人类偏好保持一致,在建立现代生成模型中起着关键作用,可以通过从人类反馈(RLHF)学习来实现。尽管表现出色,但当前的RLHF方法通常需要大量的人类标记的偏好数据,这很昂贵。在本文中,受主动学习成功的启发,我们通过提出查询有效的RLHF方法来解决此问题。We first formalize the alignment problem as a contextual dueling bandit problem and design an active-query-based proximal policy optimization ( APPO ) algorithm with an e O ( d 2 / ∆) instance-dependent regret bound and an e O ( d 2 / ∆ 2 ) query complexity, where d is the dimension of feature space and ∆ is the sub-optimality gap over all the contexts.然后,我们提出了基于直接偏好优化(DPO)的算法的实用版本ADPO,并将其应用于微调LLMS。我们的实验表明,ADPO仅对人类偏好的查询进行了大约一半的查询,与最先进的DPO方法的性能相匹配。