体验重播,在每次步骤e t =(s t,a t,r t,s t+ 1)中存储代理商的经验,其中e是一步的经验,s是状态,a是所采取的动作,r是收到的奖励。代理商选择基于适当动作的操作-SelectionsTrategy。随后重播各州,以学习算法的增强算法。dqn使用经验重播,通过从存储的体验池中抽样在Minibatches中学习。代理商将决定采取行动,观察环境的过渡并获得相关的奖励。因此,代理的目标是采取适当的动作,以最大程度地提高长期的termumulativereward。奖励。recults