1。速度:我们将采用,适应和克服。我们将提高我们的数字操作能力,以便在竞争对手的周期内进行创新和适应。目标不是孤立地提供特定能力的速度,而是创建一种文化和过程,以促进一般的新功能的快速整合和部署。我们将通过减少从测试到操作的开发周期所需的时间来做到这一点,并将重点转移到提高生存能力和致命性。2。决策权:集中执行速度很慢。我们将创建一个组织和支持基础架构,以最大程度地提高最小,最低或最小制的当局的明确意图和分散执行。在可能的情况下,决策权和其他当局将与执行实际工作的组织一起居住。的监督将通过清楚地传达意图和最小可能的约束来实现。3。标准:共同做通常做的事情。,我们将使用标准过程和互操作性来最大化速度和分散执行。我们不会重塑解决常见问题的解决方案。
任务指挥是一种领导哲学,它使空军人员能够通过信任、共同意识和对指挥官意图的理解,在不确定、复杂和快速变化的环境中行动。任务指挥的特点是通过授权下属决策,实现分散执行,并在实现指挥官意图的过程中实现灵活性、主动性和响应性。在实践中,任务指挥应为空军人员提供利用快速发展的机会并取得成功所需的行动自由。空军人员应接受培训,以分布式和分散式的方式规划和执行行动,并在与高层决策者隔离的情况下执行任务。各级空军人员应能够根据指挥官的意图和任务指挥原则轻松地做出决策和行动。
十多年来,我们的领导人和士兵一直在各种战斗环境中表现出了使命命令 - 一种领导哲学,通过提供明确的意图来分散执行,这在各种战斗环境中要求敏捷和适应性领导人根据其指挥官的意图做出决定。虽然在学说中被认为是统一土地运营中的核心要素,但在驻军和培训中对任务命令的接受和实践并不明显。Mission Command在地面战斗的无情坩埚中为我们提供了很好的服务,对于在复杂的未来环境中获胜至关重要。由于我们作为领导者的任务是赢得胜利,因此我们必须抓住一切机会来加强在驻军中的任务和培训,以最大程度地提高我们的人员准备。
美国空军必须为新的现实做好准备,即机动自由和行动自由受到越来越大的挑战。为了在整个竞争过程中进行威慑、竞争和取胜,空军人员应准备好在有争议、退化和作战受限的环境中开展行动。因此,空军人员在与上级总部 (HHQ) 断开连接时,要了解其环境、做出决策并集中效果。空军 AFDP 1 通过将任务指挥确立为空军人员的领导理念和空中力量指挥与控制 (C2) 框架来支持这项工作。任务指挥框架是集中指挥、分布式控制和分散执行 (CC-DC-DE)。任务指挥提供了在未来战斗中获胜所必需的响应能力、灵活性和主动性。通过采用规划和命令开发文化,美国空军服务部门或单位参谋部 (A 参谋部) 和各级空军人员可以在不确定、复杂且快速变化的环境中完成其分配的任务。
摘要 —本文介绍了一种新颖的多智能体强化学习 (MARL) 框架,以使用无人机 (UAV) 群作为传感雷达来增强综合传感和通信 (ISAC) 网络。通过将无人机的定位和轨迹优化构建为部分可观测马尔可夫决策过程,我们开发了一种 MARL 方法,该方法利用集中训练和分散执行来最大化整体传感性能。具体来说,我们实施了一种分散的合作 MARL 策略,使无人机能够制定有效的通信协议,从而增强其环境意识和运营效率。此外,我们通过传输功率自适应技术增强了 MARL 解决方案,以减轻通信无人机之间的干扰并优化通信协议效率。此外,还结合了传输功率自适应技术来减轻干扰并优化学习到的通信协议效率。尽管复杂性增加,但我们的解决方案在各种场景中都表现出强大的性能和适应性,为未来的 ISAC 网络提供了可扩展且经济高效的增强功能。索引术语 — 多智能体强化学习 (MARL)、综合传感和通信 (ISAC)、无人机 (UAV)。
价值函数分解已成为在培训和分散执行范式下进行合作多代理增强学习的普遍方法。这些算法中的许多算法通过使用代理实用程序的单调混合函数来分配最佳的关节作用功能,以确保分散决策的关节和局部选择之间的相干性。尽管如此,利用单调混合函数也会引起表示局限性,并且在单调函数类别上找到无约束的混合函数的最佳投影仍然是一个开放的问题。在本文中,我们提出了QPRO,该QPRO对价值函数分解的最佳投影问题置于遗憾的是对不同过渡的投影权重的最小化。可以使用Lagrangian乘数方法放松和解决此优化问题,以遵守封闭形式的最佳投影权重,在该方法中,我们通过最大程度地减少预期收益的遗憾政策,从而缩小最佳和受限单调混合功能之间的差距,从而增强单调值函数分支。我们的实验证明了我们方法的有效性,表明在具有非单调价值函数的环境中的性能提高了。
空中交通管制是在高度动态和随机环境中的实时安全关键决策过程。在当今的航空实践中,人类空中交通管制员监控并指挥多架飞机飞过其指定空域。随着传统(商用客机)和低空(无人机和 eVTOL 飞机)空域的空中交通复杂性快速增长,需要一个自主空中交通控制系统来适应高密度空中交通并确保飞机之间的安全分离。我们提出了一个深度多智能体强化学习框架,该框架能够识别和解决具有多个交叉点和合并点的高密度、随机和动态航路区中的飞机之间的冲突。所提出的框架采用了演员-评论家模型 A2C,该模型结合了近端策略优化 (PPO) 的损失函数来帮助稳定学习过程。此外,我们使用集中学习、分散执行方案,其中一个神经网络由环境中的所有代理学习和共享。我们表明,我们的框架既可扩展又高效,可容纳大量进场飞机,实现极高的交通吞吐量和安全保障。我们通过在 BlueSky 环境中进行大量模拟来评估我们的模型。结果表明,在极端高密度空中交通场景中,我们的框架能够分别解决交叉点和合并点的 99.97% 和 100% 的所有冲突。