在本研究中,将深度确定性策略梯度 (DDPG) 算法(该算法由人工神经网络和强化学习组成)应用于垂直起飞和着陆 (VTOL) 系统模型以控制俯仰角。之所以选择该算法,是因为传统控制算法(例如比例-积分-微分 (PID) 控制器)无法始终生成合适的控制信号来消除干扰和不必要的环境对所考虑系统的影响。为了控制该系统,在 Simulink 环境中对 VTOL 系统数学模型中的正弦参考进行训练,通过深度强化学习方法中具有连续动作空间的 DDPG 算法,该算法可以产生控制动作值,这些动作值采用能够根据确定的奖励函数最大化奖励的结构,以实现控制目的和人工神经网络的泛化能力。对于正弦参考和恒定参考,将俯仰角(指定 VTOL 系统的输出)的跟踪误差性能与传统 PID 控制器在均方误差、积分平方误差、积分绝对误差、百分比超调和稳定时间方面的性能进行了比较。通过模拟研究给出了得到的结果。
主要关键词