摘要 - 开放式学习从使用符号方法来实现目标表示,因为它们提供了为有效且可转移的学习构建知识的方法。但是,依赖符号推理的现有层次增强学习(HRL)方法通常受到手动目标表示,因此通常受到限制。自主发现符号目标表示的挑战是它必须保留关键信息,例如环境动态。在本文中,我们提出了一种通过紧急表示(即组在一起)在任务中具有相似作用的环境状态集的新兴表示的发展机制。我们引入了一种封建HRL算法,该算法同时了解目标表示和层次结构政策。该算法使用神经网络工作的符号可及性分析来近似状态集之间的过渡关系并确定目标表示。我们在复杂的导航任务上评估了我们的方法,表明学习的表示形式可解释,可转移,并导致数据有效学习。
本文为基于可靠的状态空间可达性分析提供了一种安全自主导航的新方法。后者改善了基于顺序航路点(NSBSWR)框架[1]的已经提出的灵活导航策略[1],同时考虑了建模和/或感知方面的明显不同的不确定性。的确,NSBSWR是一个新兴的概念,可以利用其灵活性和通用性,以避免频繁的复杂轨迹的计划/重新计划。本文的主要贡献是引入可及性分析方案,作为可靠的风险评估和管理政策,以确保连续分配的航点之间安全自主导航。为此,使用间隔分析来传播影响车辆动力学到导航系统指出的不确定性。通过求解具有不确定变量和参数的普通微分方程,通过间隔泰勒串联扩展方法揭示了所有车辆潜在的可触及状态空间。根据可达集的获得的界限,对导航安全做出了决定。一旦捕获了碰撞风险,风险管理层就会采取行动以更新控制参数,以掌握关键情况并确保适当地达到Waypint,同时避免任何风险状态。几个模拟结果证明了在不确定性下总体导航的安全性,效率和鲁棒性。
摘要 - 遵守道路规则对于自动驾驶汽车的安全操作至关重要。以前的工作表明,可以通过基于车辆可及的搜索空间来限制搜索空间来加快符合规则的运动计划。我们提出了一种算法,以使车辆在粘附在线性时间逻辑规范时可以达到的状态过度陈述。通过将模型检查整合到可及性分析中,我们可以尽早排除许多不合规的状态。我们只需要在必要时在语义上分配可及的集合,以决定规范的有效性。与现有方法相比,这大大减少了计算时间。我们在录制的现实世界情景中基准了我们的方法,以展示其实时功能。
手稿版本:作者接受的手稿包装中呈现的版本是作者接受的手稿,可能与已发布的版本或记录的版本有所不同。持续的包裹网址:http://wrap.warwick.ac.uk/182959如何引用:有关最新的书目引用信息,请参考发布版本。如果已知已发布的版本,则链接到上面的存储库项目页面将包含有关访问它的详细信息。版权所有和重复使用:沃里克研究档案门户(WARAP)使沃里克大学的研究人员在以下条件下可用开放访问权限。版权所有©以及此处介绍的论文版本的所有道德权利属于单个作者和/或其他版权所有者。在合理且可行的范围内,已在可用的情况下检查了包装中可用的材料是否有资格。未经事先许可或收费,可以将完整项目的副本用于个人研究或研究,教育或非营利目的。前提是作者,标题和完整的书目细节被认为是针对原始元数据页面提供的超链接和/或URL,并且内容不会以任何方式更改。发布者的声明:请参阅“存储库”页面,发布者的语句部分,以获取更多信息。有关更多信息,请通过以下网络与WARP团队联系:wrap@warwick.ac.uk。
正式验证,更具体地说是模型检查,是计算机科学的一个分支,它提供了自动检查系统是否正确的技术[3,18]。这对于负责空中交通管理或核电站控制的关键任务的系统至关重要。在理论上和工具开发中都取得了很多进展,并且该技术现已在行业中广泛使用。如今,通常面对由更复杂的系统(称为多代理系统),这些系统由异质组件组成,从传统的反应代码到完全自主的机器人或人类用户。建模和验证此类系统是一个具有挑战性的问题,远未解决。一种可能的方法是依靠游戏理论,这是数学的一个分支,研究代理人之间的数学模型和对决策的理解,假设它们是理性的[32,38]。通常,每个代理(即播放器)组成系统具有自己的目标或偏好,他设法实现这些目标的方式受到其他代理的行为的影响。合理性可以通过多种方式形式化。代理人合理行为的著名模型是多人非零和游戏图中NASH平衡[31]的概念,代表了玩家之间可能的相互作用[36]。另一种模型是Stackelberg Games [39],其中一位指定的球员(领导者)宣布了实现其目标的策略,而其他玩家 - 追随者,以最佳的方式做出了理性的回应