11策略梯度算法46 11.1策略梯度算法。。。。。。。。。。。。。。。。。。。。。46 11.1.1香草政策梯度。。。。。。。。。。。。。。。。。。。47 11.1.2加强。。。。。。。。。。。。。。。。。。。。。。。。。48 11.1.3加强一把(rloo)。。。。。。。。。。。49 11.1.4近端策略优化。。。。。。。。。。。。。。。。50 11.1.5组相对策略优化。。。。。。。。。。。。51 11.2实施。。。。。。。。。。。。。。。。。。。。。。。。。。。。52 11.2.1政策梯度。。。。。。。。。。。。。。。。。。。。。。。。53 11.2.2近端策略优化。。。。。。。。。。。。。。。。53 11.2.3组相对策略优化。。。。。。。。。。。。56 11.3辅助主题。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。57 11.3.1广义优势估计(GAE)。。。。。。57 11.3.2双重正则化。。。。。。。。。。。。。。。。。。。。58