这项研究研究了在两个不同的马尔可夫决策过程(MDP)环境中应用了四个强化学习(RL)算法的算法(RL)算法的表现:交通交叉点问题和仓库机器人问题。在交通交叉点问题中,发现策略的收敛速度快于价值迭代,而Q学习的速度比SARSA更快。在仓库机器人问题中,Q学习和SARSA都成功地学习了导航策略,而Q学习更具对环境变化的支持。研究表明,RL算法对重要的MDP参数(例如折现因子,过渡概率和奖励功能)高度敏感,这意味着需要仔细调整这些参数。此外,该研究还探讨了计划者与代理商之间的权衡,从而在融合,稳定性和效率方面进行了权衡。使用Python和各种库进行实施,这些发现提供了有关如何在动荡的环境中应用RL技术的见解,并建议将来改善算法设计和实现的方法。
主要关键词