多臂老虎机 (MAB) 问题模拟了一个决策者,该决策者根据当前和获得的新知识优化其行动以最大化其回报。这种类型的在线决策在脑机接口 (BCI) 的许多程序中都很突出,MAB 以前曾用于研究,例如,使用哪些心理命令来优化 BCI 性能。然而,BCI 背景下的 MAB 优化仍然相对未被探索,即使它有可能在校准和实时实施期间提高 BCI 性能。因此,本综述旨在向 BCI 社区进一步介绍 MAB 的成果丰硕的领域。本综述包括 MAB 问题和标准解决方法的背景,以及与 BCI 系统相关的解释。此外,它还包括 BCI 中 MAB 的最新概念和对未来研究的建议。
循环神经网络已被证明可在为推荐系统建模顺序用户反馈方面发挥有效作用。然而,它们通常仅关注项目相关性,无法有效地为用户探索多样化的项目,因此从长远来看会损害系统性能。为了解决这个问题,我们提出了一种新型的循环神经网络,称为循环探索网络 (REN),以联合执行表示学习和潜在空间中的有效探索。REN 试图在相关性和探索之间取得平衡,同时考虑到表示中的不确定性。我们的理论分析表明,即使学习到的表示存在不确定性,REN 也可以保持速率最优的亚线性遗憾。我们的实证研究表明,REN 可以在合成和现实世界的推荐数据集上获得令人满意的长期回报,表现优于最先进的模型。
受对老虎机问题渐近行为研究的启发,我们得到了几个策略驱动的极限定理,包括大数定律、大偏差原理和中心极限定理。与经典极限定理不同,我们开发了抽样策略驱动的极限定理,这些定理可以产生最大或最小平均回报。大数定律确定了各种策略下可以实现的所有可能极限。大偏差原理提供了偏离极限域的最大衰减概率。为了描述围绕平均值的波动,我们得到了最优策略下的策略驱动的中心极限定理。这些定理中的极限是明确确定的,并且在很大程度上取决于事件的结构或积分函数和策略。这展示了学习结构的关键特征。我们的结果可用于估计最大(最小)回报,并确定避免双臂老虎机问题中帕隆多悖论的条件。它也为通过统计推断确定提供更高平均奖励的臂奠定了理论基础。
简介 多臂老虎机 (MAB) 模型是强化学习中最基本的设置之一。这个简单的场景捕捉到了诸如探索和利用之间的权衡等关键问题。此外,它还广泛应用于运筹学、机制设计和统计学等领域。多臂老虎机的一个基本挑战是最佳臂识别问题,其目标是有效地识别出具有最大预期回报的臂。这个问题抓住了实际情况中的一个常见困难,即以单位成本只能获得有关感兴趣系统的部分信息。一个现实世界的例子是推荐系统,其目标是找到对用户有吸引力的商品。对于每个推荐,只会获得对推荐商品的反馈。在机器学习的背景下,最佳臂识别可以被视为主动学习的高级抽象和核心组件,其目标是尽量减少底层概念的不确定性,并且每个步骤仅显示被查询的数据点的标签。量子计算是一种有前途的技术,可能应用于密码分析、优化和量子物理模拟等不同领域。最近,量子计算设备已被证明在特定方面的表现优于传统计算机
我们为结构化限制提出了一个新颖的框架,我们称之为影响图匪。我们的框架使用图形模型来捕获动作,潜在变量和观察之间的复杂统计依赖性;因此,统一并扩展了许多现有的模型,例如共同的半伴侣,级联的匪徒和低级匪徒。我们开发了新颖的在线学习算法,这些算法学会在模型中有效地行事。关键思想是要跟踪模型参数的结构化分布,无论是外部还是大约。采取行动,我们将模型参数从其后部进行采样,然后使用影响图的结构来发现采样参数下最乐观的动作。我们在三个结构化的匪徒问题中凭经验评估了我们的算法,并表明它们的性能与特定问题的最新基准相比,它们的性能和更好或更好。