在不久的将来,建造量子计算机[1]的最新进展[1]在量子算法中广泛应用。有了量子计算机的优势,人们不仅可以加快基本算法,例如非结构化搜索[6]和分解[11],而且还可以加快机器学习算法[3]。在本文中,我们研究了强化学习的规范任务的量子加速,这是多臂匪徒中最佳的手臂识别。多臂匪徒(MAB) - 从LAI和ROBBINS引起[8] - 是一个重要的顺序决策模型(参考,[9])。在随机情况下,mAb由k臂组成,每个臂都与未知平均µ k的奖励分布相关。查询臂k∈K时:= {1,2,。。。,k},一个人从其奖励分布中获得的奖励,即