本研究探讨了在线老虎机赌博中险胜的影响。险胜发生在赌博结果接近获胜但仍然输掉时。险胜在老虎机中很常见,可以让人们感觉他们几乎赢了,从而鼓励他们继续赌博。先前的研究对险胜如何影响动机、情绪和投注行为的结果喜忧参半。研究人员进行了三项研究,以检查赌博行为的不同方面和险胜的主观体验。研究人员发现,险胜增加了继续赌博的动机,并且比完全输掉更受好评。险胜还促使人们更快地开始下一轮并下注更多金额。研究结果表明,险胜显著影响赌博行为和主观体验。
简介 多臂老虎机 (MAB) 模型是强化学习中最基本的设置之一。这个简单的场景捕捉到了诸如探索和利用之间的权衡等关键问题。此外,它还广泛应用于运筹学、机制设计和统计学等领域。多臂老虎机的一个基本挑战是最佳臂识别问题,其目标是有效地识别出具有最大预期回报的臂。这个问题抓住了实际情况中的一个常见困难,即以单位成本只能获得有关感兴趣系统的部分信息。一个现实世界的例子是推荐系统,其目标是找到对用户有吸引力的商品。对于每个推荐,只会获得对推荐商品的反馈。在机器学习的背景下,最佳臂识别可以被视为主动学习的高级抽象和核心组件,其目标是尽量减少底层概念的不确定性,并且每个步骤仅显示被查询的数据点的标签。量子计算是一种有前途的技术,可能应用于密码分析、优化和量子物理模拟等不同领域。最近,量子计算设备已被证明在特定方面的表现优于传统计算机
多臂老虎机 (MAB) 问题模拟了一个决策者,该决策者根据当前和获得的新知识优化其行动以最大化其回报。这种类型的在线决策在脑机接口 (BCI) 的许多程序中都很突出,MAB 以前曾用于研究,例如,使用哪些心理命令来优化 BCI 性能。然而,BCI 背景下的 MAB 优化仍然相对未被探索,即使它有可能在校准和实时实施期间提高 BCI 性能。因此,本综述旨在向 BCI 社区进一步介绍 MAB 的成果丰硕的领域。本综述包括 MAB 问题和标准解决方法的背景,以及与 BCI 系统相关的解释。此外,它还包括 BCI 中 MAB 的最新概念和对未来研究的建议。
受对老虎机问题渐近行为研究的启发,我们得到了几个策略驱动的极限定理,包括大数定律、大偏差原理和中心极限定理。与经典极限定理不同,我们开发了抽样策略驱动的极限定理,这些定理可以产生最大或最小平均回报。大数定律确定了各种策略下可以实现的所有可能极限。大偏差原理提供了偏离极限域的最大衰减概率。为了描述围绕平均值的波动,我们得到了最优策略下的策略驱动的中心极限定理。这些定理中的极限是明确确定的,并且在很大程度上取决于事件的结构或积分函数和策略。这展示了学习结构的关键特征。我们的结果可用于估计最大(最小)回报,并确定避免双臂老虎机问题中帕隆多悖论的条件。它也为通过统计推断确定提供更高平均奖励的臂奠定了理论基础。
循环神经网络已被证明可在为推荐系统建模顺序用户反馈方面发挥有效作用。然而,它们通常仅关注项目相关性,无法有效地为用户探索多样化的项目,因此从长远来看会损害系统性能。为了解决这个问题,我们提出了一种新型的循环神经网络,称为循环探索网络 (REN),以联合执行表示学习和潜在空间中的有效探索。REN 试图在相关性和探索之间取得平衡,同时考虑到表示中的不确定性。我们的理论分析表明,即使学习到的表示存在不确定性,REN 也可以保持速率最优的亚线性遗憾。我们的实证研究表明,REN 可以在合成和现实世界的推荐数据集上获得令人满意的长期回报,表现优于最先进的模型。
作者:C Angermueller · 2020 · 被引用 61 — 1989)用于多臂老虎机。然而,AOS 不是老虎机问题,因为时间 t 处的动作会影响不同算法在 t 处获得的奖励……
传统的多臂老虎机 (MAB) 算法是为平稳环境设计的,其中与臂相关的奖励分布不会随时间而变化。然而,在许多应用中,环境被更准确地建模为非平稳的。在这项工作中,研究了分段平稳 MAB (PS-MAB) 环境,其中与一部分臂相关的奖励分布在某些变化点发生变化,而在变化点之间保持平稳。我们的重点是 PS-MAB 的渐近分析,之前已经为其提出了基于变化检测 (CD) 的实用算法。我们的目标是模块化此类基于 CD 的老虎机 (CDB) 程序的设计和分析。为此,我们确定了模块化所需的平稳老虎机算法和 CDB 程序中变化检测器的要求。我们假设奖励是亚高斯的。在此假设和变化点分离的条件下,我们表明 CDB 程序的分析确实可以模块化,因此可以以统一的方式获得各种变化检测器和强盗算法组合的遗憾界限。通过这种分析,我们开发了新的模块化 CDB 程序,这些程序是顺序最优的。我们在模拟中将我们的模块化 CDB 程序的性能与其他各种方法进行了比较。
传统的多臂老虎机 (MAB) 算法是为平稳环境设计的,其中与臂相关的奖励分布不会随时间而变化。然而,在许多应用中,环境被更准确地建模为非平稳的。在这项工作中,研究了分段平稳 MAB (PS-MAB) 环境,其中与一部分臂相关的奖励分布在某些变化点发生变化,而在变化点之间保持平稳。我们的重点是 PS-MAB 的渐近分析,之前已经为其提出了基于变化检测 (CD) 的实用算法。我们的目标是模块化此类基于 CD 的老虎机 (CDB) 程序的设计和分析。为此,我们确定了模块化所需的平稳老虎机算法和 CDB 程序中变化检测器的要求。我们假设奖励是亚高斯的。在此假设和变化点分离的条件下,我们表明 CDB 程序的分析确实可以模块化,因此可以以统一的方式获得各种变化检测器和强盗算法组合的遗憾界限。通过这种分析,我们开发了新的模块化 CDB 程序,这些程序是顺序最优的。我们在模拟中将我们的模块化 CDB 程序的性能与其他各种方法进行了比较。
贡献。在本文中,我们系统地研究了近似凸函数优化的量子算法,并将其应用于零阶随机凸老虎机。量子计算是一项快速发展的技术,量子计算机的能力正在急剧提升,最近谷歌 [ 6 ] 和中国科学技术大学 [ 42 ] 已经达到了“量子至上”。在优化理论中,半定规划 [ 3 , 4 , 11 , 12 ]、一般凸优化 [ 5 , 15 ]、优化中的脱离鞍点问题 [ 41 ] 等问题的量子优势已被证明。然而,据我们所知,近似凸优化和随机凸优化的量子算法是广泛开放的。在本文中,我们使用量子零阶评估预言机 OF 来考虑这些问题,这是先前量子计算文献中使用的标准模型 [ 5 , 14 , 15 , 41 ]: