Loading...
机构名称:
¥ 3.0

本文讨论了如何将Q学习和深度Q-Networks(DQN)应用于马尔可夫决策过程(MDP)描述的状态行动问题。这些是机器学习方法,用于在每个时间步骤中找到最佳的动作选择,从而导致最佳策略。讨论了这两种方法的局限性和优势,主要局限性是Q学习无法用于无限状态空间的问题。Q-学习在算法的简单性方面具有优势,从而更好地理解了该算法实际上在做什么。Q学习确实设法找到了本文研究的简单问题的最佳策略,但无法解决高级问题。深层Q-NETWORK(DQN)方法能够解决这两个问题,因此很难理解算法实际上在做什么。

对马尔可夫决策过程的Q学习方法的审查

对马尔可夫决策过程的Q学习方法的审查PDF文件第1页

对马尔可夫决策过程的Q学习方法的审查PDF文件第2页

对马尔可夫决策过程的Q学习方法的审查PDF文件第3页

对马尔可夫决策过程的Q学习方法的审查PDF文件第4页

对马尔可夫决策过程的Q学习方法的审查PDF文件第5页

相关文件推荐

2024 年
¥1.0
2023 年
¥15.0