摘要:针对无人战斗机空战中的机动决策问题,本文提出了一种基于深度强化学习的无人战斗机自主机动决策方法。首先,建立敌我双方无人战斗机飞行机动模型及机动库。然后,考虑到无人战斗机俯仰角不同时各动作不同的状态转换效果,将俯仰角等10个状态变量作为状态空间。结合空战态势威胁评估指数模型,设计内部奖励与稀疏奖励相结合的两层奖励机制作为强化学习的评估依据。然后,根据异步优势演员-评论家(A3C)算法,构建全连接层的神经网络模型。通过多线程的方式,UCAV与环境不断交互学习,对模型进行训练,逐步学习到最优的空战机动对抗策略,并指导UCAV进行行动选择。该算法通过多线程异步学习,降低了样本间的相关性。最后,在三种不同的空战场景中验证了该方法的有效性和可行性。