Loading...
机构名称:
¥ 5.0

部分可观察到的马尔可夫决策过程(POMDP)是在不确定性下进行计划的有力框架。他们允许对状态不确定性建模为一种信念概率分布。基于蒙特卡洛抽样的近似求解器,在放宽计算需求并执行在线计划方面取得了巨大的成功。然而,将许多动作和较长计划视野的比例扩展到复杂的现实域仍然是一个重大挑战,实现良好性能的关键点是指导采取行动选择程序,并使用针对特定应用程序域量身定制的域依赖性政策启发式方法。我们建议从任何求解器生成的执行trace traces中学习高质量的启发式方法。我们将信仰行动对转换为逻辑语义,并进行了数据和时间效率的归纳逻辑编程(ILP),以生成可解释的基于信念的政策规范,然后将其用作在线启发式方法。我们在两个臭名昭著的POMDP问题上彻底评估了我们的方法,涉及大型动作空间和较长的计划范围,即摇滚样本和Pocman。考虑了包括POMCP,Supstot和Adaops在内的不同最先进的在线POMDP求解器,我们表明,在答案集编程(ASP)中表达的启发式方法(ASP)屈服表现出优于神经网络,并且类似于最佳手工制作的任务 - 在较低计算时间内的特定特定的启发式方法。此外,它们已经概括为在训练阶段没有经历的更具挑战性的场景(例如,在岩石样品中增加岩石和网格大小,增加了地图的大小以及Pocman中鬼魂的侵略性)。

在POMDPS中学习政策指导的逻辑规范

在POMDPS中学习政策指导的逻辑规范PDF文件第1页

在POMDPS中学习政策指导的逻辑规范PDF文件第2页

在POMDPS中学习政策指导的逻辑规范PDF文件第3页

在POMDPS中学习政策指导的逻辑规范PDF文件第4页

在POMDPS中学习政策指导的逻辑规范PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0
1900 年
¥6.0
2025 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2020 年
¥2.0