多次无误攻击是饱和和克服导弹防御系统的最简单方法之一。为了提高针对此类攻击者群体的拦截效率,有必要根据其运动学局限性分配拦截器。此外,这样的分配方案必须是可扩展的,以应对大型方案并允许动态重新分配。在本文中,我们首先提出了这种武器目标分配(WTA)问题的新表述,并提供了使用加固学习(RL)以及贪婪的搜索算法来解决它的分散方法。从每个追随者与所有目标的角度考虑参与。同时,其他拦截器与目标群体相关,而其他团队成员则可以使用其分配和成功概率。为了改善中途轨迹的塑造,在追随者和进来的对手之间放置了静态虚拟目标。每个拦截器根据从计算有效的仿真环境中的大量场景中学到的策略动态选择目标。RL输入状态包含目标的拦截器达到性覆盖范围以及其他导弹成功的概率。RL奖励汇总了团队绩效,以鼓励在分配层面上进行合作。相关的可及性约束是通过采用拦截器运动的运动学近似来分析获得的。RL的使用确保所有拦截器的实时可扩展和动态重新分配。我们将基于RL的分散WTA和指导方案与贪婪解决方案的性能进行比较,显示了RL的性能优势。
主要关键词