I. i ntroduction r einformention学习(RL)代表机器学习中的重要范式[1],与通过与环境的互动进行优化决策过程。它从根本上使用马尔可夫决策过程(MDP)进行建模,这是一个数学框架,描述了在状态,行动,过渡和奖励方面的环境。在MDP中,代理人通过观察状态,根据定义的政策执行诉讼,获得后续奖励,并过渡到后续状态。RL算法的主要目标是得出最佳策略,该政策随着时间的推移而产生最大预期的累积奖励。深度RL通过使用深层神经网络作为函数近似器来扩展传统RL [2]。深度学习与RL的这种融合在处理高维状态空间方面发挥了作用,这有助于在各种复杂的任务中进行突破。