牛津英语词典定义精确医学是“旨在优化特定患者组的效率或治疗性有益的医疗服务,尤其是使用遗传或分子培养。”这并不是一个全新的想法:远古时代的医生已经认识到,医疗需要考虑患者特征的个体变化(Konstantinidou等,2017)。然而,现代的精确医学运动是通过事件的影响来实现的:诸如遗传学和药理学的科学进步,移动设备的技术进步和可穿戴传感器的技术进步以及计算和数据科学方面的方法论进步。本章是关于强盗算法的:与精密医学特殊相关的数据科学领域。的根源是贝尔曼,罗宾斯,莱和其他人的开创性作品,匪徒算法已经占据了现代数据科学的中心位置(请参阅Lattimore和Szepesvári(2020)的书,以进行最新处理)。强盗算法。由于精密药物专注于使用患者特征来指导治疗,因此上下文匪徒算法特别有用,因为它们旨在考虑此类信息。之前已经审查了Bandit算法在移动健康和数字表型等精确医学领域的作用(Tewari和Murphy,2017; Rabbi等,2019)。由于发表了这些评论,因此Bandit算法继续在移动健康中找到使用,并且在有关强盗算法的研究中已经出现了一些新的主题。本章是为诸如统计,机器学习和操作研究等领域的定量研究人员编写的,他们可能有兴趣更多地了解已在移动健康中使用的Bandit算法的算法和数学细节。我们已经组织了本章以实现两个目标。首先,我们要在Bandit算法中简明说明基本主题。第2节将帮助读者熟悉Precision Medicine和Mobile Health的应用工作中经常出现的基本问题设置和算法(例如,参见Paredes等人。(2014); Piette等。(2015); Rabbi等。(2015); Piette等。(2016); Yom-Tov等。(2017); Rindtor Q.等。(2019); Forman等。(2019); Liao等。(2020); Ameko等。(2020); Aguilera等。(2020); Tomkins等。(2021))。第二,我们要重点介绍一些对移动健康和精确药物应用很重要的高级主题,但其全部潜力仍有待实现。第3节将为读者提供有关非平稳性,对损坏的奖励,满足其他限制,算法公平和因果关系的强大的匪徒文献的有用入口。
受对老虎机问题渐近行为研究的启发,我们得到了几个策略驱动的极限定理,包括大数定律、大偏差原理和中心极限定理。与经典极限定理不同,我们开发了抽样策略驱动的极限定理,这些定理可以产生最大或最小平均回报。大数定律确定了各种策略下可以实现的所有可能极限。大偏差原理提供了偏离极限域的最大衰减概率。为了描述围绕平均值的波动,我们得到了最优策略下的策略驱动的中心极限定理。这些定理中的极限是明确确定的,并且在很大程度上取决于事件的结构或积分函数和策略。这展示了学习结构的关键特征。我们的结果可用于估计最大(最小)回报,并确定避免双臂老虎机问题中帕隆多悖论的条件。它也为通过统计推断确定提供更高平均奖励的臂奠定了理论基础。
KSA匪徒利用半导体固有的带隙的温度依赖性来测量温度。使用此技术,样品可以扩散反射或传输适当的波长范围内的光。在此过程中,样品可以通过将其某些能量转移到价带中的电子,从而选择性地吸收足够的能量,从而将其促进到传导带。但是,缺乏所需能量的光可以通过样品。从吸收到传输的过渡的能量定义了样品的光吸收边缘,并且取决于温度。ksa匪徒使用固态光谱仪分析了扩散反射或发射光的光谱,以确定吸收边缘的波长,通过一组材料特异性校准曲线将其转换为温度。
设计具有靶向特性的分子对于从药物设计到设计可持续化学过程的应用至关重要[Bilodeau等,2022]。最近,诸如扩散或流匹配模型之类的生成模型成功地生成了与现有化学数据集相似的分子[Hoogeboom等,2022,Runcie and Mey,2023]。虽然扩散模型有望对复杂(高维或组合)空间进行采样,但它们自然不会导致设计通过在线反馈来优化特定属性。同时,贝叶斯优化技术会导致良好的性质最大化,但不容易扩展到复杂的域。因此:我们是否可以根据最佳概念结合生成模型产生有希望的分子的能力,同时根据生成分子的序列实现特性进一步证明?我们最近开始通过利用[Yuan等,2024,Uehara等,2024]的扩散模型来回答这个问题,并通过扩散模型为贝叶斯优化设计算法。现在,我们旨在将这些想法专门为实用方法,并在现实世界中的新分子设计问题上进行测试。
由于沟通成本高,联合学习(FL)系统需要采样每一轮培训的客户的子集。因此,客户采样在FL系统中起着重要作用,因为它影响了用于训练机器学习模型的优化算法的收敛速率。尽管其重要性,但如何有效地对客户进行采样的工作有限。在本文中,我们将客户取样作为在线学习任务,并使用Bandit反馈进行,我们使用在线随机镜下降(OSMD)算法来解决,该算法旨在最大程度地减少采样差异。然后,我们在理论上展示了我们的采样方法如何在广泛使用的均匀采样上提高联合优化算法的收敛速度。通过模拟和实际数据实验,我们从经验上说明了拟议的客户采样算法的优势,而不是统一采样和现有的基于在线学习的采样策略。所提出的自适应采样程序适用于此处研究的FL概率,可用于改善随机优化程序的性能,例如随机梯度下降和随机坐标下降。
摘要 — 为满足移动用户日益增长的服务期望并避免频段切换速度慢的问题,设备到设备 (D2D) 通信在物联网 (IoT) 中受到了广泛研究关注。虽然新兴的 D2D 节点可以支持异构频段 [射频 (RF),包括 2.4 GHz/5 GHz 无线局域网 (WLAN)、38 GHz 毫米波 (mmWave) 和可见光通信 (VLC)],但物理限制(例如阻塞)要求用户设备在频段之间动态切换,以避免连接丢失和吞吐量下降。在本文中,我们研究了混合 RF-VLC 场景中用于直接用户数据处理的有效在线链路选择。首先,我们将多频段选择问题建模为多臂老虎机 (MAB) 问题。源/中继节点充当玩家,通过选择合适的臂(即可用频段(WLAN、mmWave 或 VLC))来最大化其长期反馈/奖励。然后,我们提出了一种在线、能量感知频段选择 (EABS) 方法,利用三种理论上有保证的 MAB 技术 [置信上限 (UCB)、汤普森采样 (TS) 和极小极大值
可以证明,UCB的遗憾在渐近上是最佳的,请参见Lai和Robbins(1985),渐近的适应性分配规则;或2018年Bandit算法书籍的第8章在线可在线提供,网址为https://banditalgs.com/。
传统的多臂老虎机 (MAB) 算法是为平稳环境设计的,其中与臂相关的奖励分布不会随时间而变化。然而,在许多应用中,环境被更准确地建模为非平稳的。在这项工作中,研究了分段平稳 MAB (PS-MAB) 环境,其中与一部分臂相关的奖励分布在某些变化点发生变化,而在变化点之间保持平稳。我们的重点是 PS-MAB 的渐近分析,之前已经为其提出了基于变化检测 (CD) 的实用算法。我们的目标是模块化此类基于 CD 的老虎机 (CDB) 程序的设计和分析。为此,我们确定了模块化所需的平稳老虎机算法和 CDB 程序中变化检测器的要求。我们假设奖励是亚高斯的。在此假设和变化点分离的条件下,我们表明 CDB 程序的分析确实可以模块化,因此可以以统一的方式获得各种变化检测器和强盗算法组合的遗憾界限。通过这种分析,我们开发了新的模块化 CDB 程序,这些程序是顺序最优的。我们在模拟中将我们的模块化 CDB 程序的性能与其他各种方法进行了比较。