受对老虎机问题渐近行为研究的启发,我们得到了几个策略驱动的极限定理,包括大数定律、大偏差原理和中心极限定理。与经典极限定理不同,我们开发了抽样策略驱动的极限定理,这些定理可以产生最大或最小平均回报。大数定律确定了各种策略下可以实现的所有可能极限。大偏差原理提供了偏离极限域的最大衰减概率。为了描述围绕平均值的波动,我们得到了最优策略下的策略驱动的中心极限定理。这些定理中的极限是明确确定的,并且在很大程度上取决于事件的结构或积分函数和策略。这展示了学习结构的关键特征。我们的结果可用于估计最大(最小)回报,并确定避免双臂老虎机问题中帕隆多悖论的条件。它也为通过统计推断确定提供更高平均奖励的臂奠定了理论基础。