彼得·麦卡勒姆癌症中心和澳洲维克的皇家墨尔本医院;新南威尔士州新南威尔士州皇家王子阿尔弗雷德医院;新南威尔士州皇家北岸医院;澳洲昆士兰州公主亚历山德拉医院;澳洲维克莫纳什医院;澳洲华盛顿州菲奥娜·斯坦利医院;澳洲维克大学吉朗大学医院;澳洲维克的阿尔弗雷德医院;澳大利亚皇家阿德莱德医院;新南威尔士州新南威尔士州的Cal髅地医院;澳洲维克黄金海岸医院;新南威尔士州威斯特米德医院;新南威尔士州康科德医院;华盛顿州华盛顿州查尔斯·盖尔德纳爵士医院;德克萨斯大学医学博士安德森癌症中心,美国德克萨斯州; ACRF翻译研究实验室,维克,澳洲;
摘要 — 为满足移动用户日益增长的服务期望并避免频段切换速度慢的问题,设备到设备 (D2D) 通信在物联网 (IoT) 中受到了广泛研究关注。虽然新兴的 D2D 节点可以支持异构频段 [射频 (RF),包括 2.4 GHz/5 GHz 无线局域网 (WLAN)、38 GHz 毫米波 (mmWave) 和可见光通信 (VLC)],但物理限制(例如阻塞)要求用户设备在频段之间动态切换,以避免连接丢失和吞吐量下降。在本文中,我们研究了混合 RF-VLC 场景中用于直接用户数据处理的有效在线链路选择。首先,我们将多频段选择问题建模为多臂老虎机 (MAB) 问题。源/中继节点充当玩家,通过选择合适的臂(即可用频段(WLAN、mmWave 或 VLC))来最大化其长期反馈/奖励。然后,我们提出了一种在线、能量感知频段选择 (EABS) 方法,利用三种理论上有保证的 MAB 技术 [置信上限 (UCB)、汤普森采样 (TS) 和极小极大值
多臂老虎机 (MAB) 问题模拟了一个决策者,该决策者根据当前和获得的新知识优化其行动以最大化其回报。这种类型的在线决策在脑机接口 (BCI) 的许多程序中都很突出,MAB 以前曾用于研究,例如,使用哪些心理命令来优化 BCI 性能。然而,BCI 背景下的 MAB 优化仍然相对未被探索,即使它有可能在校准和实时实施期间提高 BCI 性能。因此,本综述旨在向 BCI 社区进一步介绍 MAB 的成果丰硕的领域。本综述包括 MAB 问题和标准解决方法的背景,以及与 BCI 系统相关的解释。此外,它还包括 BCI 中 MAB 的最新概念和对未来研究的建议。
简介 多臂老虎机 (MAB) 模型是强化学习中最基本的设置之一。这个简单的场景捕捉到了诸如探索和利用之间的权衡等关键问题。此外,它还广泛应用于运筹学、机制设计和统计学等领域。多臂老虎机的一个基本挑战是最佳臂识别问题,其目标是有效地识别出具有最大预期回报的臂。这个问题抓住了实际情况中的一个常见困难,即以单位成本只能获得有关感兴趣系统的部分信息。一个现实世界的例子是推荐系统,其目标是找到对用户有吸引力的商品。对于每个推荐,只会获得对推荐商品的反馈。在机器学习的背景下,最佳臂识别可以被视为主动学习的高级抽象和核心组件,其目标是尽量减少底层概念的不确定性,并且每个步骤仅显示被查询的数据点的标签。量子计算是一种有前途的技术,可能应用于密码分析、优化和量子物理模拟等不同领域。最近,量子计算设备已被证明在特定方面的表现优于传统计算机