摘要 - 搜索和救援行动中无人机的有效路径优化面临挑战,包括有限的可见性,时间限制和城市环境中的复杂信息收集。我们提出了一种全面的方法,可以利用3D AirSim-Ros2模拟器和2D模拟器,用于基于无人机的搜索和救援操作。路径计划问题被提出为部分可观察到的马尔可夫决策过程(POMDP),我们提出了一种新颖的“缩小POMCP”方法来解决时间限制。在Airsim环境中,我们将我们的方法与信仰维护的概率世界模型和避免障碍物的神经玫瑰花型导航器相结合。2D模拟器采用具有等效功能的替代ROS2节点。我们比较了2D模拟器中不同方法产生的轨迹,并评估3D Airsim-Ros模拟器中各种信念类型的性能。两个模拟器的实验结果表明,与替代方法相比,我们提出的缩小POMCP解决方案在搜索时间方面取得了重大改善,展示了其提高无人机辅助搜索和救援操作效率的潜力。索引条款 - 搜索和救援,POMDP,MCTS
部分可观察到的马尔可夫决策过程(POMDP)是在不确定性下进行计划的有力框架。他们允许对状态不确定性建模为一种信念概率分布。基于蒙特卡洛抽样的近似求解器,在放宽计算需求并执行在线计划方面取得了巨大的成功。然而,将许多动作和较长计划视野的比例扩展到复杂的现实域仍然是一个重大挑战,实现良好性能的关键点是指导采取行动选择程序,并使用针对特定应用程序域量身定制的域依赖性政策启发式方法。我们建议从任何求解器生成的执行trace traces中学习高质量的启发式方法。我们将信仰行动对转换为逻辑语义,并进行了数据和时间效率的归纳逻辑编程(ILP),以生成可解释的基于信念的政策规范,然后将其用作在线启发式方法。我们在两个臭名昭著的POMDP问题上彻底评估了我们的方法,涉及大型动作空间和较长的计划范围,即摇滚样本和Pocman。考虑了包括POMCP,Supstot和Adaops在内的不同最先进的在线POMDP求解器,我们表明,在答案集编程(ASP)中表达的启发式方法(ASP)屈服表现出优于神经网络,并且类似于最佳手工制作的任务 - 在较低计算时间内的特定特定的启发式方法。此外,它们已经概括为在训练阶段没有经历的更具挑战性的场景(例如,在岩石样品中增加岩石和网格大小,增加了地图的大小以及Pocman中鬼魂的侵略性)。