摘要 - 该论文考虑了通过元强化学习的无人机(UAV)的轨迹设计问题。假定无人机可以在不同的方向上移动以探索特定区域并从该区域的地面节点(GNS)收集数据。无人机的目标是到达目的地,并最大程度地提高轨迹轨迹期间收集的总数据,同时避免与其他无人机发生碰撞。在有关无人机轨迹设计的文献中,香草学习算法通常用于训练特定于任务的模型,并为GNS的特定空间分布提供了近乎最佳的解决方案。但是,当GNS的位置变化时,此方法需要从头开始重新审查。在这项工作中,我们提出了一个元加强学习框架,该框架结合了模型 - 静态元学习方法(MAML)。而不是训练任务特定模型,我们为GNS和不同的通道条件的不同分布进行了共同的初始化训练。从初始化中,适应具有不同GN分布和通道条件的不同任务只需要几个梯度下降。此外,我们还探讨了何时优选提出的MAML框架,并且可以优于比较算法。
主要关键词