深化增强学习算法中使用的超参数数量已迅速扩大。超参数通常具有复杂的非线性相互作用,会显着影响性能,并且很难在各种环境中进行调整。这为希望将强化学习算法应用于新领域的从业者带来了挑战。已经提出了几种方法来研究算法及其超参数之间的关系,但是该社区缺乏广泛接受的措施来表征整个环境集中的超参数灵敏度。我们提出了一种研究算法的超参数之间的关系及其在环境集上的性能之间的关系。我们的方法论使从业者能够更好地了解算法报告的性能归因于环境超参数调整的程度。我们使用经验方法来评估几种常用的归一化变体如何影响PPO的超参数敏感性。结果表明,所评估的归一化变体可以提高性能,也提高了高参数的敏感性,表明七种算法的性能改善可能是对高参数调整的依赖性增加的结果。
主要关键词