对数遗憾:Lai&Robbins(1985)5的经典结果断言,最佳的遗憾率为O(log n)。实际上,在奖励分布的参数假设下,他们表明,所有保证所有α> 0的遗憾的政策必须采样至少1 c(a,a ∗)log n libies c(a,a,a,a,a,a,a,a,a ∗)= d(p(p(p(·| a),p(·| a),p(·| a ∗)extry ernection nige n lim diog n lim nige n lim nigial n ligials nigial n ligial。分布。他们的政策渐近地实现了最佳的遗憾,它基于上限范围(UCB)的概念,需要对这些界限进行微妙的操纵。