为了在现实世界中部署强化学习(RL)代理,它们必须能够推广到看不见的环境。但是,RL在分布外的概括方面挣扎,通常是由于过度拟合培训环境的细节。尽管可以应用监督学习的正则化技术来避免过度插入,但超级学习和RL之间的差异限制了其应用。为了解决这个问题,我们提出了RL的信噪比调节的参数不确定性网络(SNR PUN)。我们将SNR作为正规化网络的参数定向的新量度,并提供了正式分析,解释了SNR正则为什么对RL效果很好。我们证明了我们提出的方法在几个模拟环境中概括的有效性;在一个物理系统中,显示了使用SNR PUN将RL应用于现实世界应用程序的可能性。
www.scirj.org©2012-2024,科学研究杂志http://dx.doi.org/10.31364/scirj/scirj/v12.i08.2024.p0824993该出版物在Creative Comportial Commons Tribipution Cc by by cc cc by vicesence vernicalsitation。
此项目/顶点课程 - 全球访问由 USF 奖学金的所有论文、学位论文、顶点课程和项目免费开放访问:Gleeson 图书馆 | Geschke 中心的数字存储库。它已被 USF 奖学金的授权管理员接受纳入硕士项目和顶点课程:Gleeson 图书馆 | Geschke 中心的数字存储库。有关更多信息,请联系repository@usfca.edu。
“这篇论文是由加拿大军事学院的一名学生为完成课程要求而撰写的。这篇论文是一份学术文件,因此包含作者认为适合该主题的事实和观点。它不一定反映任何机构的政策或意见,包括加拿大政府和加拿大国防部。未经加拿大国防部明确许可,不得发布、引用或复制本文。” 字数:17,916