自适应信息路径计划(AIPP)对许多机器人应用非常重要,使移动机器人能够有效收集有关最初未知环境的有用数据。此外,基于学习的方法越来越多地用于机器人技术,以增强各种和复杂任务的适应性,多功能性和鲁棒性。我们的调查探讨了将机器人学习应用于AIPP的研究,从而弥合了这两个研究领域之间的差距。我们首先为一般AIPP问题提供统一的数学问题定义。接下来,我们从(i)学习算法和(ii)机器人应用的角度建立了当前工作的两个互补分类法。我们探讨了协同作用,最新趋势,并突出了AIPP框架中基于学习的方法的好处。最后,我们讨论了关键的挑战和有希望的未来方向,以通过学习使更普遍适用,健壮的机器人数据收集系统。我们提供了调查中综述的全面论文目录,包括公开可用的存储库,以促进该领域的未来研究。
自适应信息路径计划(AIPP)对许多机器人应用非常重要,使移动机器人能够有效收集有关最初未知环境的有用数据。此外,基于学习的方法越来越多地用于机器人技术,以增强各种和复杂任务的适应性,多功能性和鲁棒性。我们的调查探讨了将机器人学习应用于AIPP的研究,从而弥合了这两个研究领域之间的差距。我们首先为一般AIPP问题提供统一的数学问题定义。接下来,我们从(i)学习算法和(ii)机器人应用的角度建立了当前工作的两个互补分类法。我们探索了协同作用,最新趋势,并突出了AIPP框架中基于学习的方法的好处。最后,我们讨论了关键的挑战和有希望的未来方向,以通过学习使更普遍适用,健壮的机器人数据收集系统。我们提供了调查中综述的全面论文目录,包括公开可用的存储库,以促进该领域的未来研究。
在加强学习(RL)中,国家的奖励通常被认为是增加的,并且按照马尔可夫的假设,它们独立于先前访问的状态。在许多重要的应用中,例如覆盖范围控制,实验设计和信息性路径计划,奖励自然会降低回报,即鉴于以前访问过的类似状态,其价值会降低。为了解决这个问题,我们提出了subsodular rl(s ub rl),该范式旨在优化通过捕获降低回报的subsodular Set函数模拟的更通用的,非添加的(和历史依赖的)奖励。不幸的是,即使在表格设置中,我们也表明,所产生的优化问题很难近似。是出于贪婪算法在经典次次优化方面的成功的动机,我们提出了S ub po,这是一种基于政策梯度的简单梯度al-gorithm,用于S ub rl,通过贪婪地最大化边际增长来处理非增长的重新奖励。的确,在基础马尔可夫决策过程(MDP)的一些假设下,s ub po恢复了子模块的最佳常数因子近似值。此外,我们得出了一种自然政策梯度方法,即使在大型州和行动空间中,也可以在本地优化S UB RL实例。我们通过将S UB PO应用于生物多样性监测,贝叶斯实验设计,信息路径计划和覆盖范围最大化等多种应用来展示我们的方法的多功能性。我们的结果证明了样本效率以及对高维状态行动空间的可伸缩性。