传统的多臂老虎机 (MAB) 算法是为平稳环境设计的,其中与臂相关的奖励分布不会随时间而变化。然而,在许多应用中,环境被更准确地建模为非平稳的。在这项工作中,研究了分段平稳 MAB (PS-MAB) 环境,其中与一部分臂相关的奖励分布在某些变化点发生变化,而在变化点之间保持平稳。我们的重点是 PS-MAB 的渐近分析,之前已经为其提出了基于变化检测 (CD) 的实用算法。我们的目标是模块化此类基于 CD 的老虎机 (CDB) 程序的设计和分析。为此,我们确定了模块化所需的平稳老虎机算法和 CDB 程序中变化检测器的要求。我们假设奖励是亚高斯的。在此假设和变化点分离的条件下,我们表明 CDB 程序的分析确实可以模块化,因此可以以统一的方式获得各种变化检测器和强盗算法组合的遗憾界限。通过这种分析,我们开发了新的模块化 CDB 程序,这些程序是顺序最优的。我们在模拟中将我们的模块化 CDB 程序的性能与其他各种方法进行了比较。
在这项工作中,我们启动了使用Denois扩散模型来学习在线决策问题的先验的想法。我们专门针对强盗元学习,旨在学习一项跨同一班级的强盗任务的策略。为此,我们训练一个扩散模型,该模型在测试时处理了基本的任务分布,并在处理新任务之前与学习的汤普森采样。我们的后抽样算法仔细平衡了学识渊博的先验和嘈杂的观察结果,这些观察结果来自学习者与环境的相互作用。为了捕获现实的强盗情景,我们提出了一种新型的扩散模型训练程序,该过程从不完整和嘈杂的数据中训练,这可能具有独立的兴趣。最后,我们的广泛实验清楚地证明了所提出的方法的潜力。
作者:C Angermueller · 2020 · 被引用 61 — 1989)用于多臂老虎机。然而,AOS 不是老虎机问题,因为时间 t 处的动作会影响不同算法在 t 处获得的奖励……
向下一代高性能迁移的首选。ASPEN 中 L3Harris ROVER 功能的整体设计提供了与所有机载、水面和海军平台的完整战场空间集成,包括广泛部署的 ROVER 6、OSRVT™、TACTICAL NETWORK ROVER 手持设备、CMDL™(LITENING 和狙击吊舱)、BANDIT™(ScanEagle 无人机)和其他战术资产。经过验证的可靠性和经过认证的加密功能是美国政府和美国盟国依靠 L3Harris 提供作战通信解决方案。
Xu和Zeevi [9]的论文,“贝叶斯的设计原则,用于频繁的顺序学习”,提出了一种解决广泛的顺序决策问题的一般方法。它引入了一种新颖的优化设置,代理商持有“算法信念”,并旨在最大程度地减少遗憾的概念。作者提出了一个新的损失函数,该功能可以使代理使用标准贝叶斯原则更新信念,而无需提交特定的事先。该框架适用于各种多臂强盗和增强学习设置,并在随机,对抗和非平稳的强盗环境中实现了出色的经验性能。这项工作发表在2023年国际机器学习会议(ICML)中,并因其贡献而获得了“杰出纸质奖”。
向下一代高性能迁移的首选。ASPEN 中 L3Harris ROVER 功能的整体设计提供了与所有机载、水面和海军平台的完整战场空间集成,包括广泛部署的 ROVER 6、OSRVT™、TACTICAL NETWORK ROVER 手持设备、CMDL™(LITENING 和狙击吊舱)、BANDIT™(ScanEagle UAV)和其他战术资产。经过验证的可靠性和经过认证的加密功能是美国政府和美国盟友依赖 L3Harris 提供作战通信解决方案的原因。
摘要 — 投资组合方法代表一种简单但有效的行动抽象类型,它已被证明可以提高一系列战略游戏中基于搜索的代理的性能。我们首先回顾现有的投资组合技术,并提出一种基于滚动水平进化算法的优化和行动选择新算法。此外,还开发了一系列变体来解决不同方面的问题。我们进一步分析了所讨论的代理在一般战略游戏任务中的表现。为此,我们对 S TRATEGA 框架的三种不同游戏模式进行了实验。为了优化代理的参数和投资组合集,我们研究了 N 元组强盗进化算法的使用。由此产生的投资组合集表明游戏风格高度多样化,同时能够持续击败样本代理。对代理性能的分析表明,所提出的算法可以很好地推广到所有游戏模式,并且能够胜过其他投资组合方法。索引术语 — 投资组合方法、一般战略游戏、Stratega、N 元组强盗进化算法
我们开发了一种一般理论,以优化顺序学习概率的频繁遗憾,其中有效的强盗和强化学习算法可以从统一的贝叶斯原理中得出。我们提出了一种新颖的优化方法,以在每一轮中产生“算法信念”,并使用贝叶斯后代做出决定。创建“算法信念”的优化目标,我们称其为“算法信息比”,代表了一种有效地表征任何算法的频繁遗憾的Intrinsic复杂性度量。据我们所知,这是以通用且最佳的方式使贝叶斯型算法保持不含和适用于对抗设置的第一种系统性方法。此外,算法很简单且通常可以实现。作为一种主要应用,我们为多臂匪徒提供了一种新颖的算法,该算法在随机,对抗性和非平稳环境中实现了“最佳世界”的表现。我们说明了这些原理如何在线性匪徒,强盗凸优化和增强学习中使用。
部分监测(Rustichini,1999)是无状态顺序决策的灵活框架。部分监视模型捕获了标准的多臂和线性匪徒的设置,半信息反馈模型,动态定价和决斗匪徒的变体,仅举几例。部分监视被形式化为学习者和环境之间的基于圆形的游戏。在每回合中,学习者选择一个动作,环境提供了反馈。此外,与每个动作相关的(未知)奖励,但与强盗模型不同,不一定直接观察到奖励。相反,为学习者提供了奖励和反馈如何相关的描述。为了最大程度地提高累积奖励,学习者需要在导致信息反馈和高奖励的行动之间取得仔细的平衡,这是探索 - 开发难题的本质。更具体地,学习者需要收集数据,使其能够识别最佳动作,同时最大程度地减少相对于最佳动作(称为遗憾)的次优最佳动作的成本。
个性化治疗建议在医疗保健中越来越重要,尤其是对于多种慢性病患者(称为多发性发病率患者)。对此类患者的有效治疗涉及选择针对个人患者特征,共存状况和偏好定制的最合适的治疗干预措施。个性化医学中的现有方法通常依赖于无法充分解决医疗保健数据的动态和复杂性质的静态模型或有限的数据集。强化学习(RL),特别是多武器匪(MAB)问题框架,通过平衡探索(尝试新的治疗方法)和开发(选择最著名的治疗方法),提供了有希望的解决方案。