获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
摘要:携带不同设备用于空中悬停操作的无人机的应用正在越来越广泛,但是目前,依赖于悬停控制的强化学习方法,目前有非常有意的研究,并且尚未在物理机器上实施。无人机在悬停控制方面的行为空间是连续且大规模的,这对于基本算法和基于价值的增强学习(RL)算法很难获得良好的结果。响应于这个问题,本文将观察者 - 演员(WAC)算法应用于无人机的悬停控制,该算法可以迅速锁定勘探方向并实现无人机悬停控制的高度鲁棒性,同时改善学习效率和降低学习成本。本文首先利用基于行为价值Q(QAC)和深层确定策略梯度算法(DDPG)的参与者批评算法,用于无人机悬停控制学习。随后,提出了带有添加观察者的批评算法,其中观察者使用带有神经网络作为动态监视的参数的PID控制器,将学习过程转换为监督学习。最后,本文使用了经典的增强学习环境图书馆,健身房和当前主流加固学习框架,PARL,用于