许多决策问题涉及通过与环境互动并观察这些相互作用产生的奖励来学习。在机器学习领域,这一研究属于所谓的增强学习(RL)和训练与环境相互作用的人工剂的算法(Sutton和Barto,2018; Kaelbling et et and; Kaelbling等人。,1996; Bertsekas和Tsitsiklis,1996)。我们在这里对匪徒家族问题的最佳手臂识别(BAI)问题感兴趣,这与RL问题集有关,其中与环境的互动会产生立即奖励以及不必要的长期计划(请参阅Lattimore和Szepesvári,2020年的长期计划)。更确切地说,我们对BAI问题的量子版本感兴趣,为此我们设计了能够解决该问题的量子算法。Quantum机器学习是量子计算和机器学习界面上的一项研究场,目的是使用量子计算范式和技术来提高学习算法的速度和性能(Wittek,2014; Biamonte等人。 ,2017年; Ciliberto等。 ,2018年; Schuld和Petruccione,2018年)。 量子计算中的一个基本概念是量子叠加,这是量子算法(1996年)之类的量子算法(最受欢迎的量子算法之一)成功地解决了从n个项目的无结构数据库中删除一个项目的问题,否,2017年; Ciliberto等。,2018年; Schuld和Petruccione,2018年)。量子计算中的一个基本概念是量子叠加,这是量子算法(1996年)之类的量子算法(最受欢迎的量子算法之一)成功地解决了从n个项目的无结构数据库中删除一个项目的问题,否
牛津英语词典定义精确医学是“旨在优化特定患者组的效率或治疗性有益的医疗服务,尤其是使用遗传或分子培养。”这并不是一个全新的想法:远古时代的医生已经认识到,医疗需要考虑患者特征的个体变化(Konstantinidou等,2017)。然而,现代的精确医学运动是通过事件的影响来实现的:诸如遗传学和药理学的科学进步,移动设备的技术进步和可穿戴传感器的技术进步以及计算和数据科学方面的方法论进步。本章是关于强盗算法的:与精密医学特殊相关的数据科学领域。的根源是贝尔曼,罗宾斯,莱和其他人的开创性作品,匪徒算法已经占据了现代数据科学的中心位置(请参阅Lattimore和Szepesvári(2020)的书,以进行最新处理)。强盗算法。由于精密药物专注于使用患者特征来指导治疗,因此上下文匪徒算法特别有用,因为它们旨在考虑此类信息。之前已经审查了Bandit算法在移动健康和数字表型等精确医学领域的作用(Tewari和Murphy,2017; Rabbi等,2019)。由于发表了这些评论,因此Bandit算法继续在移动健康中找到使用,并且在有关强盗算法的研究中已经出现了一些新的主题。本章是为诸如统计,机器学习和操作研究等领域的定量研究人员编写的,他们可能有兴趣更多地了解已在移动健康中使用的Bandit算法的算法和数学细节。我们已经组织了本章以实现两个目标。首先,我们要在Bandit算法中简明说明基本主题。第2节将帮助读者熟悉Precision Medicine和Mobile Health的应用工作中经常出现的基本问题设置和算法(例如,参见Paredes等人。(2014); Piette等。(2015); Rabbi等。(2015); Piette等。(2016); Yom-Tov等。(2017); Rindtor Q.等。(2019); Forman等。(2019); Liao等。(2020); Ameko等。(2020); Aguilera等。(2020); Tomkins等。(2021))。第二,我们要重点介绍一些对移动健康和精确药物应用很重要的高级主题,但其全部潜力仍有待实现。第3节将为读者提供有关非平稳性,对损坏的奖励,满足其他限制,算法公平和因果关系的强大的匪徒文献的有用入口。
KSA匪徒利用半导体固有的带隙的温度依赖性来测量温度。使用此技术,样品可以扩散反射或传输适当的波长范围内的光。在此过程中,样品可以通过将其某些能量转移到价带中的电子,从而选择性地吸收足够的能量,从而将其促进到传导带。但是,缺乏所需能量的光可以通过样品。从吸收到传输的过渡的能量定义了样品的光吸收边缘,并且取决于温度。ksa匪徒使用固态光谱仪分析了扩散反射或发射光的光谱,以确定吸收边缘的波长,通过一组材料特异性校准曲线将其转换为温度。
在这项工作中,我们启动了使用Denois扩散模型来学习在线决策问题的先验的想法。我们专门针对强盗元学习,旨在学习一项跨同一班级的强盗任务的策略。为此,我们训练一个扩散模型,该模型在测试时处理了基本的任务分布,并在处理新任务之前与学习的汤普森采样。我们的后抽样算法仔细平衡了学识渊博的先验和嘈杂的观察结果,这些观察结果来自学习者与环境的相互作用。为了捕获现实的强盗情景,我们提出了一种新型的扩散模型训练程序,该过程从不完整和嘈杂的数据中训练,这可能具有独立的兴趣。最后,我们的广泛实验清楚地证明了所提出的方法的潜力。
摘要 - 我们考虑在随机多臂匪徒中最佳手臂识别的问题,在每个臂在每个回合中进行一次采样的情况。这种统一的抽样制度是一个概念上简单的设置,与许多实际应用相关。目的是停止并正确识别概率至少1 -δ的最佳臂,同时保持低回合的数量。我们在此设置的样品复杂性上得出了一个下限。此后,我们提出了两个自然停止规则,该规则是Bernoulli强盗的:一个基于PPR Martingale置信序列,另一个基于GLR统计数据。两个规则均显示为δ→0匹配。我们的分析和实验表明,两个停止规则的相对性能取决于强盗实例的属性。
Xu和Zeevi [9]的论文,“贝叶斯的设计原则,用于频繁的顺序学习”,提出了一种解决广泛的顺序决策问题的一般方法。它引入了一种新颖的优化设置,代理商持有“算法信念”,并旨在最大程度地减少遗憾的概念。作者提出了一个新的损失函数,该功能可以使代理使用标准贝叶斯原则更新信念,而无需提交特定的事先。该框架适用于各种多臂强盗和增强学习设置,并在随机,对抗和非平稳的强盗环境中实现了出色的经验性能。这项工作发表在2023年国际机器学习会议(ICML)中,并因其贡献而获得了“杰出纸质奖”。
我们开发了一种一般理论,以优化顺序学习概率的频繁遗憾,其中有效的强盗和强化学习算法可以从统一的贝叶斯原理中得出。我们提出了一种新颖的优化方法,以在每一轮中产生“算法信念”,并使用贝叶斯后代做出决定。创建“算法信念”的优化目标,我们称其为“算法信息比”,代表了一种有效地表征任何算法的频繁遗憾的Intrinsic复杂性度量。据我们所知,这是以通用且最佳的方式使贝叶斯型算法保持不含和适用于对抗设置的第一种系统性方法。此外,算法很简单且通常可以实现。作为一种主要应用,我们为多臂匪徒提供了一种新颖的算法,该算法在随机,对抗性和非平稳环境中实现了“最佳世界”的表现。我们说明了这些原理如何在线性匪徒,强盗凸优化和增强学习中使用。
摘要 — 投资组合方法代表一种简单但有效的行动抽象类型,它已被证明可以提高一系列战略游戏中基于搜索的代理的性能。我们首先回顾现有的投资组合技术,并提出一种基于滚动水平进化算法的优化和行动选择新算法。此外,还开发了一系列变体来解决不同方面的问题。我们进一步分析了所讨论的代理在一般战略游戏任务中的表现。为此,我们对 S TRATEGA 框架的三种不同游戏模式进行了实验。为了优化代理的参数和投资组合集,我们研究了 N 元组强盗进化算法的使用。由此产生的投资组合集表明游戏风格高度多样化,同时能够持续击败样本代理。对代理性能的分析表明,所提出的算法可以很好地推广到所有游戏模式,并且能够胜过其他投资组合方法。索引术语 — 投资组合方法、一般战略游戏、Stratega、N 元组强盗进化算法
计算统计与机器学习成立于 2016 年,研究机器学习的基础。我们专注于统计原理和计算效率的方法,使用概率和统计以及数值分析和优化技术。后者为设计学习算法和分析其计算特性提供了通用框架。前者为解决数据不确定性和描述学习算法的泛化特性提供了数学基础。我们一直活跃于机器学习理论和算法的不同领域。最近的兴趣包括算法公平性、强盗和零阶优化、双层优化和学习动态系统。