增强学习(RL)是机器学习研究的重要领域,它越来越多地应用于物理中的复杂优化问题。并行,物理学的概念与熵限制的RL等发展有助于RL的重要进展。尽管这些发展导致了两个领域的进步,但在熵调查的RL中获得了优化的分析解决方案,目前是一个空旷的问题。在本文中,我们在熵限制的RL和研究中的研究中建立了映射,该统计学专注于马尔可夫过程以罕见事件为条件。在长期限制中,我们将大型偏差理论的方法应用于马尔可夫决策过程中最佳策略和最佳动态(MDP)模型的确切分析结果。获得的结果导致了熵调查的RL的分析和计算框架,该框架通过模拟验证。这项工作中建立的映射将强化学习和非平衡统计力学方面的研究联系起来,从而为将分析和计算方法的应用从一个领域到另一个领域的尖端问题开放。
主要关键词