ppo [6],[48],[76],[88],[98],[114],[153],[167],[203],[208],[208],[308,309],[338],[338],[342] trpo [342] trpo [43],[43],[312],[312] 2其他[6],[30],[30],[30],[30],[60],[60],[60],[60],[60],[60] 171],[196],[218],[260],[288],[342] 12基于模型的其他[340],[131],[327] 3表1。基于RL方法和算法对每个出版物进行分类。
此处使用的目标函数是根据(相当流行的)PPO算法建模的。该算法反过来是一种策略梯度方法,并且是由信任区域策略优化(TRPO)的目标函数所激发的。,但是目标函数背后的(超高级别)直觉如下:1。对奖励的期望表明,在RL训练的模型πRL的样品上,我们希望该样品πrl的概率高时,当奖励rθ高,否则否则为低。2。beta术语的期望表明我们不希望RL训练的模型概率πrl到
策略梯度算法对在执行学习中的应用显示出了令人印象深刻的结果,但长期以来,人们已经认识到,一些更正是为了改善收敛性;实施此类更正的几个众所周知的程序是对数势垒进行加强算法[23],信任区域策略优化TRPO [16]和近端策略优化(PPO,OpenAI的默认默认依据重新启动学习算法);所有人都使用正规化形式,即所有人都试图通过各种方法限制和控制策略更新。在这种一般环境中,我们将在此关注不同类型的正则化,并最具体地谈论多武装匪徒。虽然策略梯度算法显示出有趣的数值性能,但对MAB收敛的理论研究直到最近才见证了重要的进步。在[8]中证明,随机梯度程序对于线性二次调节器的一般情况而言,而Agarwal等人则具有很高的可能性。在Markov Prosess的一般框架下给出了[2]的理论结果,并在不同的策略参数中特别证明了收敛性;在我们在此处分析的软马克斯参数化的特定情况下,它们检查了三种解决此问题的算法。最初的方法涉及在目标上直接的策略梯度下降而没有改变。第二种方法 - 企业熵正规化,以防止参数过度生长,从而确保足够的探索。最后,他们研究了自然政策差异算法,并证明了与分配不匹配系数或特定维度特定因素无关的全球最佳结果。回想一下,相比之下,我们在这里研究了使用L 2正则化的SoftMax参数化。在几个月前(在写作时)在线发表的一篇最近的论文[4]中,J。Bhandari和D. Russo讨论了SoftMax参数化,但重点介绍(我们引用)“理想化的政策梯度更新,并访问了确切的梯度评估”。是一个区别,我们将在这里重点放在非脱颖而出的梯度上(这是实施的梯度),但以更强的假设为代价。然而,在另一项最先进的研究[11]中,作者做出了三项贡献。首先,他们确定,当启用真实梯度(即没有随机性)时,具有软磁性参数化的策略梯度以O(1 /T)的速率收敛。然后,他们检查了熵登记的策略梯度,并证明其加速收敛速率。最后,通过整合上述结果,它们描述了熵正规化增强策略优化的机制。最后,其他一些相关的作品包括[21],更具体地研究了使用深神经网络时的现场,而[24]通过使用新的变体进行了折现因子来研究蒙特卡洛估计的随机推出的新变体。
