为了在现实世界中部署强化学习(RL)代理,它们必须能够推广到看不见的环境。但是,RL在分布外的概括方面挣扎,通常是由于过度拟合培训环境的细节。尽管可以应用监督学习的正则化技术来避免过度插入,但超级学习和RL之间的差异限制了其应用。为了解决这个问题,我们提出了RL的信噪比调节的参数不确定性网络(SNR PUN)。我们将SNR作为正规化网络的参数定向的新量度,并提供了正式分析,解释了SNR正则为什么对RL效果很好。我们证明了我们提出的方法在几个模拟环境中概括的有效性;在一个物理系统中,显示了使用SNR PUN将RL应用于现实世界应用程序的可能性。
主要关键词