Loading...
机构名称:
¥ 1.0

为了在现实世界中部署强化学习(RL)代理,它们必须能够推广到看不见的环境。但是,RL在分布外的概括方面挣扎,通常是由于过度拟合培训环境的细节。尽管可以应用监督学习的正则化技术来避免过度插入,但超级学习和RL之间的差异限制了其应用。为了解决这个问题,我们提出了RL的信噪比调节的参数不确定性网络(SNR PUN)。我们将SNR作为正规化网络的参数定向的新量度,并提供了正式分析,解释了SNR正则为什么对RL效果很好。我们证明了我们提出的方法在几个模拟环境中概括的有效性;在一个物理系统中,显示了使用SNR PUN将RL应用于现实世界应用程序的可能性。

正规化参数不确定性,用于改善加强学习的概括

正规化参数不确定性,用于改善加强学习的概括PDF文件第1页

正规化参数不确定性,用于改善加强学习的概括PDF文件第2页

正规化参数不确定性,用于改善加强学习的概括PDF文件第3页

正规化参数不确定性,用于改善加强学习的概括PDF文件第4页

正规化参数不确定性,用于改善加强学习的概括PDF文件第5页

相关文件推荐