本文使用的深层确定性策略梯度算法(DDPG)是一种策略学习方法,可输出连续动作。它来自确定性策略梯度(DPG)算法。它借鉴了Actor-Critic策略梯度的单步更新的优势,并结合了Deep Q Network(DQN)的体验重播和目标网络技术,以改善Actor-Critic方法的收敛性。DDPG算法由策略网络和目标网络组成。ddpg使用确定性策略来选择动作,因此输出不是行为的概率,而是特定行为。是策略网络的参数,t a是动作,而t是状态。目标网络将在一定时间段内固定网络中的参数,从而消除由当前网络和目标网络之间相同参数引起的模型振荡。DDPG算法具有强大的深神经网络拟合和概括能力,以及处理连续动作空间的优势,并通过在当前状态下学习最佳动作策略来连续训练和调整神经网络参数。
主要关键词