简介 多臂老虎机 (MAB) 模型是强化学习中最基本的设置之一。这个简单的场景捕捉到了诸如探索和利用之间的权衡等关键问题。此外,它还广泛应用于运筹学、机制设计和统计学等领域。多臂老虎机的一个基本挑战是最佳臂识别问题,其目标是有效地识别出具有最大预期回报的臂。这个问题抓住了实际情况中的一个常见困难,即以单位成本只能获得有关感兴趣系统的部分信息。一个现实世界的例子是推荐系统,其目标是找到对用户有吸引力的商品。对于每个推荐,只会获得对推荐商品的反馈。在机器学习的背景下,最佳臂识别可以被视为主动学习的高级抽象和核心组件,其目标是尽量减少底层概念的不确定性,并且每个步骤仅显示被查询的数据点的标签。量子计算是一种有前途的技术,可能应用于密码分析、优化和量子物理模拟等不同领域。最近,量子计算设备已被证明在特定方面的表现优于传统计算机
主要关键词