摘要 - 搜索和救援行动中无人机的有效路径优化面临挑战,包括有限的可见性,时间限制和城市环境中的复杂信息收集。我们提出了一种全面的方法,可以利用3D AirSim-Ros2模拟器和2D模拟器,用于基于无人机的搜索和救援操作。路径计划问题被提出为部分可观察到的马尔可夫决策过程(POMDP),我们提出了一种新颖的“缩小POMCP”方法来解决时间限制。在Airsim环境中,我们将我们的方法与信仰维护的概率世界模型和避免障碍物的神经玫瑰花型导航器相结合。2D模拟器采用具有等效功能的替代ROS2节点。我们比较了2D模拟器中不同方法产生的轨迹,并评估3D Airsim-Ros模拟器中各种信念类型的性能。两个模拟器的实验结果表明,与替代方法相比,我们提出的缩小POMCP解决方案在搜索时间方面取得了重大改善,展示了其提高无人机辅助搜索和救援操作效率的潜力。索引条款 - 搜索和救援,POMDP,MCTS
2020; Jin等。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。特别是,对于有限的状态空间,神经功能近似值取得了显着的成功(Mnih等人。,2015年; Berner等。,2019年; Arulkumaran等。,2019年),而线性函数近似器理论上变得更好地理解(Yang和Wang,2020; Jin等人。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。相比之下,尽管在实践中普遍存在,但在部分观察到的马尔可夫决策过程中的强化学习(POMDPS)较少地研究(Cassandra等人,1996; Hauskrecht和Fraser,2000年; Brown and Sandholm,2018年; Ra i Qerty等。,2011年)。更具体地,部分可观察性构成了统计和计算。从统计的角度来看,由于缺乏马尔可夫财产,预测未来的奖励,观察或国家是一项挑战。尤其是,预测未来通常涉及推断国家的分布(也称为信仰状态)或其功能作为历史的摘要,即使假设(observation)发射和(状态)过渡内核也已知(Vlassis etal。 ,2012年; Golowich等。 ,2022)。 同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。 ,2021)。 ,2020a)。,2012年; Golowich等。,2022)。同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。,2021)。,2020a)。例如,它们通常是不可实现的(Kallus等人。即使假设它们是能够识别的,它们的估计可能需要一个样本量,该样本量在地平线和维度上成倍缩小(Jin等人。即使在评估政策方面,这种统计挑战也已经令人难以置信(Nair和Jiang,2021; Kallus等人。,2021; Bennett和Kallus,2021),构成了政策优化的基础。从计算角度来看,众所周知,策略优化通常是棘手的(Vlassis et al。,2012年; Golowich等。,2022)。此外,有限的观察和状态空间扩大了统计和计算挑战。另一方面,大多数现有结果仅限于表格设置(Azizzadenesheli等人。,2016年; Guo等。,2016年; Jin等。,2020a; Xiong等。,2021),其中观察和状态空间是有限的。在本文中,我们研究了POMDP中的线性函数近似,以解决有限观察和状态空间所扩增的实力挑战。尤其是我们的贡献是四倍。首先,我们定义了具有线性结构的一类POMDP,并确定了针对样品良好的增强学习的不良调节措施。这样的不良调节措施对应于表格设置中的重复(Jin等人,2020a)。第二,我们提出了一种增强学习算法(OP-TENET),该算法适用于任何POMDP承认上述线性结构。此外,我们在操作装置中使用最小值优化公式,以便即使数据集较大,也可以在计算功能庄园中实现算法。第三,从理论上讲,我们证明了Op -Tenet在o(1 /ǫ2)情节中达到了最佳政策。尤其是样品复杂性在线性结构的固有维度上缩放,并且是观测和状态空间大小的独立性。第四,我们的算法和分析基于新工具。 特别是,op-tenet的样本效率是由se- 启用的第四,我们的算法和分析基于新工具。特别是,op-tenet的样本效率是由se-
( *表示相等的贡献。)[5](ICLR 2025)Ruizhe Shi ∗,Runlong Zhou ∗,Simon S. du。“采样器在在线直接偏好优化中的关键作用”。[link] [4](神经2024)Ruizhe Shi,Yifang Chen,Yushi Hu,Alisa Liu,Hannaneh Hajishirzi,Noah A. Smith,Simon S. Du。“与多个目标的解码时间模型对齐”。[link] [3](ICML 2024)Chenhao Lu,Ruizhe Shi ∗,Yuyao Liu ∗,Kaizhe Hu,Simon S. Du,Huazhe Xu。“在求解POMDP中重新思考变压器”。[link] [2](ICLR 2024)Ruizhe Shi ∗,Yuyao Liu ∗,Yanjie Ze,Simon S. Du,Huazhe Xu。“释放了先前训练的语言模型以进行离线强化学习的力量”。[link] [1](神经2023)Yanjie Ze,Yuyao Liu ∗,Ruizhe Shi ∗,Jiaxin Qin,Zhecheng Yuan,Jiashun Wang,Huazhe Xu。“ H-index:具有手工说明的视觉增强学习,以进行灵巧的操纵”。[link]
人类机器人共享工作空间中的一个关键挑战是定义决策标准,以选择浮华,有效和安全的协作的下一个任务。在工业环境中使用机器人时,任务可能符合要执行的优先限制。在机器人独自结束之前,当人无法执行任务时,行业中的优先限制的一个典型例子发生在汇编站。本文介绍了一种基于最大熵逆最佳控制的方法,用于识别人类目标的概率分布,并将其包含在人类机器人共享 - 工作空间协作的软件工具中。软件分析人类目标和目标优先限制,并且能够确定最佳机器人目标以及相对运动计划。所使用的方法是一种用于管理目标优先限制的算法和用于选择下一个机器人动作的部分可观察到的马尔可夫决策过程(POMDP)。与15名参与者进行了比较研究,在现实世界中进行了。该实验的重点是评估任务效果,任务效率和人类满意度。所提出的模型显示机器人闲置时间的减少并增加了人类满意度。
本文调查了使用深度强化学习(DRL)训练的政策的弹性,以解决敏捷的地球观察卫星调度问题(AEOSSP),重点是操作过程中反应轮(RW)断层的影响。尽管基于DRL的策略旨在处理动态和不可预见的场景,但在断层条件下的弹性并未得到很好的理解。本研究评估了各种断层场景下此类政策的适应性,从而确定了性能和安全性降解的阈值。调度问题被提出为可观察到的马尔可夫决策(POMDP),并使用在无故障环境中训练的策略解决。然后在各种故障场景中测试该策略,包括单独的RW故障,功率限制,摩擦增加,编码器测量错误以及电池容量。结果探索了界限,随着RW越来越多的断层,发生重大的性能和安全性降解。功率限制,摩擦和电池容量故障会随着故障严重程度的增加而导致逐渐下降的性能下降,并具有明显的安全阈值。但是,由于基于扭矩的态度控制机制,编码器断层的性能影响最小。
受伤是一个不幸的但不可避免的生活事实,导致了强大的稳态3恢复和恢复过程的进化任务。人体的生理4 CAL反应和免疫系统必须与行为协调5,以使受保护的时间发生6,并防止对AF-7捕获的身体部位进一步损害。做出适当的反应需要一个8个内部控制系统,该系统代表伤害的性质和9状态,并指定并扣留行动。我们将11个系统体现的正式不确定性带入了可观察到的12马尔可夫决策过程(POMDP)的框架。根据这种分析,我们讨论了NociCep-13 tive现象,并指出了与损伤15研究相关的矛盾行为,以及从Nor-16个滋补,滋补,病理学,慢性,慢性疼痛状态的过渡倾向。im- 17,这些仿真结果提供了定量的18个帐户,使我们能够勾勒出急需的路线图19,以供未来的理论和实验研究,有关损伤,20种补品疼痛以及向慢性疼痛的过渡。最终,我们21岁寻求针对慢性疼痛的新颖方法。22
摘要。本文提出了一种深度强化学习方法,用于智能电网中多能源系统的优化管理。智能电网中生产和存储单元的最优控制问题被表述为部分可观测马尔可夫决策过程 (POMDP),并使用参与者-评论家深度强化学习算法进行解决。该框架在一个新型多能源住宅微电网模型上进行了测试,该模型涵盖电力、供暖和制冷存储以及热力生产系统和可再生能源发电。处理此类多能源系统的实时最优控制时面临的主要挑战之一是需要同时采取多种连续行动。所提出的深度确定性策略梯度 (DDPG) 代理已证明能够很好地处理连续状态和动作空间,并学会了同时对生产和存储系统采取多种行动,从而可以联合优化智能电网中的电力、供暖和制冷使用情况。这使得该方法可应用于更大规模多能源智能电网(如生态区和智能城市)的实时最优能源管理,这些电网需要同时采取多项连续行动。
摘要 - 现实世界的机器人任务计划是由于部分观察性而棘手的。一种降低复杂性的常见方法是将其他结构引入决策过程,例如混合可特性性,货运状态或时间扩展的动作。我们提出了可观察到的马尔可夫决策过程,这是一种新颖的公式,对任务级别的计划进行建模,其中不确定性与对象级别属性有关,以及机器人具有可寻求和准确观察对象的子例程。该模拟范围限制和视线线的传感器 - 被遮挡或外部传感器范围的传感器未观察到,但是可以通过重复观察来解决落入传感器视图之内的对象的属性。我们的模型会导致一个三阶段的计划过程:首先,机器人计划仅使用观察到的对象;如果失败,它会生成一个目标对象,如果观察到,可能会导致可行的计划;最后,它试图定位和观察目标,在每个新观察到的对象之后重新掌握。通过将LOMDP与现成的Markov计划者相结合,我们在面向对象的POMDP和MDP类似物的最先进的求解器具有相同的任务规范。然后,我们将公式应用于移动机器人成功解决任务。
摘要 - 在危险环境中,自主机器人系统的使用日益增加强调了有效搜索和救援操作的需求。尽管取得了重大进步,但现有有关对象搜索的文献通常在漫长规划范围和处理传感器限制(例如噪声)的困难方面往往不足。这项研究介绍了一种新颖的方法,该方法将搜索问题提出为马尔可夫决策过程(BMDP-O),以使蒙特卡洛树搜索(MCTS)成为在大规模环境中克服这些挑战的可行工具。所提出的公式结合了动作序列(选项)以在感兴趣区域之间移动,从而使算法能够有效地扩展到大环境。此方法还可以使用可自定义的视野,用于多种类型的传感器。实验结果证明了与没有选项的问题和替代工具(例如退化的地平线计划者)相比,在大环境中这种方法的优势。给定的拟议公式的计算时间相对较高,提出了进一步的近似“ Lite”公式。Lite公式以更快的计算速度以相当数量的步骤找到对象。索引术语 - 对象搜索,不在dectainty下的决策,POMDP
摘要 - 在本文中,我们提出了一种新型的调度方案,以确保单跳无线网络的每包延迟,以延迟关键应用程序。我们考虑了几类具有不同延迟要求的包装,高级数据包在成功传输后产生高实用性。考虑到竞争数据包之间延迟的相关性,我们应用了延迟范围的概念,并为调度决策引入了新的输出增益功能。特别是,选择数据包的选择不仅要考虑其输出增益,还考虑了其他数据包的延迟范围。在这种情况下,我们制定了一个多目标优化问题,旨在最小化平均队列长度,同时在保证每包延迟的约束下最大化平均输出增益。然而,由于环境的不确定性(例如,时变通道条件和随机数据包到达),使用传统的优化技术解决此问题是困难的,而且通常是不切实际的。我们开发了基于深入的增强学习(DRL)的框架来解决它。特别是,我们将原始优化问题分解为一组标量优化子问题,并将它们都作为部分可观察到的马尔可夫决策过程(POMDP)。然后,我们求助于基于双重Q网络(DDQN)的算法,以学习每个子问题的最佳调度策略,这是CanoverComethelarge-ScalestatesPaceAstatesPaceAndredCeanDreduceq-valueoveres-timation。仿真结果表明,我们提出的基于DDQN的算法在奖励和学习速度方面优于常规Q学习算法。此外,与其他基准方案相比,我们提出的调度方案可以显着减少平均延迟和延迟中断率。