ppo [6],[48],[76],[88],[98],[114],[153],[167],[203],[208],[208],[308,309],[338],[338],[342] trpo [342] trpo [43],[43],[312],[312] 2其他[6],[30],[30],[30],[30],[60],[60],[60],[60],[60],[60] 171],[196],[218],[260],[288],[342] 12基于模型的其他[340],[131],[327] 3表1。基于RL方法和算法对每个出版物进行分类。