近年来,为一组移动机器人(也称为代理商)开发路径规划方法的重要性。在给定环境中的机器人运动中使用了不同的模型,例如过渡系统(TS)[1],[2]或Petri Net(PN)模型[3],[4]。在多种情况下,需要机器人才能实现全球目标。表达机器人团队任务的已知形式主义基于高级规范,例如线性时间逻辑(LTL)[5]。运动计划应通过计算无碰撞轨迹来确保给定的任务。当然,可以以各种方式计算机器人与规范之间的关联来返回解决方案,例如,将TS抽象用于异质机器人系统的使用,以及模型检查LTL Mission的算法,以B形automaton(BA)建模。据我们所知,没有方法可以分解全球LTL任务,而无需考虑LTL形式主义的某些假设或特定类别,这是通过当前工作探讨的事实。 [1]建议将指定限制分配到仅由一个机器人解决的单个任务中,与集中式方法相比,较少的状态,而离散状态W.R.T.指数增加。 机器人的数量。 另一种计划策略依赖于PN表示[6],它具有整个团队运动的图形拓扑的好处,以及一个不变的模型W.R.T. 机器人数。 工作[6]旨在计算据我们所知,没有方法可以分解全球LTL任务,而无需考虑LTL形式主义的某些假设或特定类别,这是通过当前工作探讨的事实。[1]建议将指定限制分配到仅由一个机器人解决的单个任务中,与集中式方法相比,较少的状态,而离散状态W.R.T.指数增加。机器人的数量。另一种计划策略依赖于PN表示[6],它具有整个团队运动的图形拓扑的好处,以及一个不变的模型W.R.T.机器人数。工作[6]旨在计算
线性时间逻辑(LTL)目标的替代奖励通常用于LTL目标的计划问题。在广泛的替代奖励方法中,使用两个折现因素来确保预期收益近似于LTL目标的满意度。可以通过使用Bellman更新(例如增强学习)来估算预期的回报。但是,尚未明确讨论对贝尔曼方程的唯一性,并没有明确讨论两个折扣因素。我们证明了一个示例,即当将折扣因子之一设置为一个,如许多先前的作品中所允许的时,Bellman方程可能具有多个解决方案,从而导致对预期收益的评估不准确。然后,我们提出了一个条件,使钟手方程将预期的回报作为独特的解决方案,要求在拒绝底部连接的组件(BSCC)内的状态解决方案为0。我们证明这种情况是有足够的,可以证明具有折扣的州的解决方案可以与国家的解决方案分开而无需在这种情况下打折。关键字:马尔可夫链,极限确定性b - uchi automaton,可及性,b - uchi条件
强化学习(RL)(Sutton和Barto 2018)是一种基于抽样的学习控制器的方法。受动物行为模型的启发,RL代理与环境相互作用,并在数值奖励方面收到其性能的反馈,这些奖励会加强或惩罚某些行为。近年来,这种学习方法取得了令人印象深刻的结果(Mnih等人2015; Silver等。2016)。但是,无法精确捕获设计师在奖励信号中的意图可能会导致代理学习意外行为(Amodei等人。2016)。作为一种响应,正式语言(尤其是线性时间逻辑(LTL)和ω-规范语言)已被提出明确捕获学习目标。尽管这些语言取得了实际的成功(Hahn等人2019; Bozkurt等。2020),它们的理论复杂性是相互疏忽的。在本文中,我们提出并研究了一种基于模型的LTL和ω-型语言的近似RL算法。大概是正确的(PAC)学习(Valiant 1984)是一种正式化学习算法保证的框架:用户选择两个参数,ε> 0和δ> 0。学习算法是(有效的)PAC如果将其转换为ε接近最佳的溶液,使用多项式样本数量至少为1-δ。在RL中,已经提出了许多PAC学习算法的折扣和平均奖励(Kakade 2003; Brafman和
在本文中,我们研究了由共同保护线性时间逻辑(LTL)公式描述的高级规格的最佳机器人路径计划问题。我们考虑工作空间的地图几何形状部分已知的场景。具体来说,我们假设有一些未知区域,除非机器人在物理上到达这些区域,否则机器人不知道其继任区域。与基于游戏的标准方法相反,该方法优化了最差的成本,在本文中,我们建议将遗憾用作在这种部分知名的环境中计划的新指标。计划在固定但未知的环境下的计划的遗憾是机器人在事后意识到实际环境时所能实现的实际成本与最佳响应成本之间的差异。我们提供了一种有效的算法,以找到满足LTL规范的最佳计划,同时最大程度地减少其遗憾。提供了关于消防机器人的案例研究,以说明拟议的框架。我们认为,新指标更适合部分知名环境的情况,因为它捕获了实际花费的实际成本与探索未知区域可能获得的潜在收益之间的权衡。