摘要。连续系统是可以通过连续和模拟变量刺激的物理系统。参数或变量在值范围内。出色的连续控制策略使系统能够在无需太多干预的情况下适当,平稳地采取行动,这在机器人技术,自动驾驶,行业等中很有用。DRL算法在连续系统控制中具有广泛的应用。本文将探讨四种DRL算法的性能,即深层确定性的策略梯度(DDPG),双延迟DDPG(TD3),软演员 - 批判(SAC)和近端策略操作(PPO)(PPO)(PPO),使用来自Mujoco的四个环境中的环境中的环境中。进行了比较实验,并比较了收敛的最高奖励和所需的迭代数量。比较实验的结果表明,这些DRL算法可以在连续控制任务中学习相对适当的策略。特别是,发现TD3和SAC能够更有效地学习控制策略。需要进一步的研究来找到更好的方法来调整超参数。
主要关键词