Loading...
机构名称:
¥ 2.0

本文介绍了一种新的经验方法,即交叉环境超参数调谐基准,该方法使用单个超参数设置比较了环境之间的RL算法,从而鼓励算法开发对超级参数不敏感。我们证明,即使使用了很少的样品,这种基准对统计噪声具有鲁棒性,并且在重复的范围中获得了定性相似的结果。这种鲁棒性使得基准计算上的计算便宜,从而可以以低成本的统计良好见解。我们在一组六个小型控制环境(SC-CHTB)以及28个环境(DMC-CHTB)的整个DM控制套件上演示了CHTB的两个示例实例。最后,为了说明CHTB对现代RL算法的适用性,我们对连续控制文献中的一个开放问题进行了新的经验研究。我们充满信心地表明,Ornstein-Uhlenbeck噪声和不相关的高斯噪声在DMC-CHTB上使用DDPG算法探索没有有意义的差异。

跨环境高参数调谐用于增强学习

跨环境高参数调谐用于增强学习PDF文件第1页

跨环境高参数调谐用于增强学习PDF文件第2页

跨环境高参数调谐用于增强学习PDF文件第3页

跨环境高参数调谐用于增强学习PDF文件第4页

跨环境高参数调谐用于增强学习PDF文件第5页