1个随机匪徒1 1.1快速潜入两个阶段的随机实验。。。。。。。。。。。。。。。。。1 1.2随机匪徒简介。。。。。。。。。。。。。。。。。。。。。。。。。。2 1.3算法:探索 - 探索折衷。。。。。。。。。。。。。。。。。。10 1.3.1基本委员会 - 然后探索算法。。。。。。。。。。。。。。。。。。。。11 1.3.2从贪婪到UCB。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 1.3.3 Boltzmann探索。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 25 1.3.4随机匪徒的简单策略梯度。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 27 1.4随机匪徒的下限。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 31 1.4.1在相对熵上有点。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 31 1.4.2 Mini-Max下限(依赖模型)。15 1.3.3 Boltzmann探索。。。。。。。。。。。。。。。。。。。。。。。。。。。。。25 1.3.4随机匪徒的简单策略梯度。。。。。。。。。。。。。。。。27 1.4随机匪徒的下限。。。。。。。。。。。。。。。。。。。。。。。。。31 1.4.1在相对熵上有点。。。。。。。。。。。。。。。。。。。。。。。。。。。。31 1.4.2 Mini-Max下限(依赖模型)。。。。。。。。。。。。。。。。。34 1.4.3渐近下限(依赖模型)。。。。。。。。。。。。。。。。。36