摘要近年来,已经考虑了许多应用程序,例如预防灾难和控制,物流和运输以及无线通信。大多数无人机需要使用遥控器手动控制,这在许多环境中可能具有挑战性。因此,自主无人机引起了重大的研究兴趣,在这些研究中,大多数现有的自主导航算法都遭受了长时间的计算时间和不满意的性能。因此,我们提出了基于累积奖励和区域细分的深入加固学习(DRL)无人机路径计划算法。我们提出的区域分割旨在减少DRL药物落入局部最佳陷阱的可能性,而我们提出的累积奖励模型考虑了从节点到目的地到目的地的距离以及在节点附近的障碍物的密度,这解决了DRL算法在路径计划任务中面临的稀疏训练数据的问题。已在不同的DRL技术中测试了所提出的区域分割算法和累积奖励模型,我们表明累积奖励模型可以提高30个深神经网络的训练效率。8%和区域分割算法使深Q-Network代理避免局部最佳陷阱的99%,并协助深层确定性策略梯度代理,以避免92%的局部最佳陷阱。
深度加固学习(DRL)的最新进步显着提高了适应性交通信号控制(TSC)的性能。但是,DRL策略通常由神经网络表示,这些神经网络是过度参数化的黑框模型。因此,学识渊博的政策通常缺乏解释性,由于资源构成而无法直接部署在现实世界中的硬件中。此外,DRL方法经常表现出限制性的概括性能,努力将学习的政策推广到其他地理区域。这些因素限制了基于学习的方法的实际应用。为了解决这些问题,我们建议使用一个可以继承的可解释程序来表示控制策略。我们提出了一种新的方法,即用于交通信号控制(π-light)的可策划增强学习,旨在自主发现非差异性的程序。具体来说,我们为构建程序定义了特定域的语言(DSL)和转换规则,并利用蒙特卡洛树搜索(MCT)在离散空间中找到最佳程序。广泛的实验表明,我们的方法始终超过基本线方法。此外,与DRL相比,π灯具有优越的通用能力,从而使跨不同城市的交叉点培训和评估。最后,我们分析了学到的计划政策如何直接在资源极有限的边缘设备上删除。
摘要 - 越来越多地使用深入强化学习(DRL)框架来解决机器人技术中的高维连续控制任务。然而,由于缺乏样本效率,在机器人域中将DRL应用于在线学习实际上仍然是不可行的。一个原因是,DRL代理不利用以前任务的解决方案。基于后继功能(SFS)的多任务DRL代理的最新工作已被证明在提高样本效率方面非常有前途。在这项工作中,我们提出了一种新的方法,该方法统一了两个先前的多任务RL框架,SF-GPI和价值组成,并将它们适应连续的控制域。我们利用后继功能的组成属性来构成一组原始人的策略分布,而无需培训任何新的政策。最后,为了证明多任务机制,我们基于Isaacgym提出了概念验证的基准环境,尖端和指针,这有助于大规模平行化以加速实验。我们的实验结果表明,我们的多任务代理具有与软演员 - 批评者(SAC)相同的单任务性能,并且代理可以成功地转移到新的看不见的任务中。我们在https://github.com/robot-poception-group/ concurrent_composition提供的代码作为开放源代码。
摘要 - 尽管深度强化学习(DRL)和大型语言模型(LLMS)每个人都在应对自动驾驶中的决策挑战方面有希望,但DRL通常会遭受较高的样本复杂性,而LLMS则难以确保实时决策。为了解决这些局限性,我们提出了Tell-Drive,这是一个混合框架,该框架集成了教师LLM,以指导基于注意力的学生DRL政策。通过将风险指标,历史场景检索和域启发式法纳入上下文提示中,LLM通过思想链推理产生高级驾驶策略。随后,一种自我发挥的机制将这些策略与DRL代理的探索,加速政策融合并提高各种驾驶条件的鲁棒性。在多种流量方案中评估的实验结果表明,就成功率,平均收益和实时可行性而言,Tell-Drive优于现有的基线方法,包括其他基于LLM的方法。消融研究强调了每个模型成分的重要性,尤其是注意机制和LLM驱动指导之间的协同作用。最后,我们构建了一个虚拟真实的融合实验平台,以验证通过车辆中的实验实验在真实车辆上运行的算法的实时性能,易损和可靠性。全面验证结果可在我们的网站上找到。
摘要。连续系统是可以通过连续和模拟变量刺激的物理系统。参数或变量在值范围内。出色的连续控制策略使系统能够在无需太多干预的情况下适当,平稳地采取行动,这在机器人技术,自动驾驶,行业等中很有用。DRL算法在连续系统控制中具有广泛的应用。本文将探讨四种DRL算法的性能,即深层确定性的策略梯度(DDPG),双延迟DDPG(TD3),软演员 - 批判(SAC)和近端策略操作(PPO)(PPO)(PPO),使用来自Mujoco的四个环境中的环境中的环境中。进行了比较实验,并比较了收敛的最高奖励和所需的迭代数量。比较实验的结果表明,这些DRL算法可以在连续控制任务中学习相对适当的策略。特别是,发现TD3和SAC能够更有效地学习控制策略。需要进一步的研究来找到更好的方法来调整超参数。
通常,使用各种方法(例如非线性控制和最佳控制)开发了导弹指导和控制系统。它们由指导和控制组成,并已单独开发。先前的研究是在指导循环与控制循环之间没有耦合的前提下进行的。在Ref [1]中,为导弹控制设计了三环结构,并通过线性二次调节器得出了控制增益。ref [2]使用后替式技术,并结合了状态重建和神经网络以增强鲁棒性。ref [3]使用非线性滑动模式控制(SMC)技术来避免聊天问题,并根据边界层厚度分析E ff ect。尽管先前研究的表现令人满意,但是设计和整合指导和控制是复杂而昂贵的。另外,由于快速的几何变化或系统的稳定性,控制器无法遵循加速命令。解决这些问题,是一种同时处理指导和控制的集成指导和控制方法(IGC)。参考。 [4,5]定义了导弹的动力学,并基于模型预测控制(MPC)进行了IGC研究。 参考。 [6]设计了SMC,以最大程度地减少零-E ff ort-ort-biss(ZEM),即已知目标的操纵加速度的前提。 参考。 [7]开发了IGC系统,该系统通过将SMC技术与强大的干扰观察者相结合,可以使干扰可靠。参考。[4,5]定义了导弹的动力学,并基于模型预测控制(MPC)进行了IGC研究。参考。 [6]设计了SMC,以最大程度地减少零-E ff ort-ort-biss(ZEM),即已知目标的操纵加速度的前提。 参考。 [7]开发了IGC系统,该系统通过将SMC技术与强大的干扰观察者相结合,可以使干扰可靠。参考。[6]设计了SMC,以最大程度地减少零-E ff ort-ort-biss(ZEM),即已知目标的操纵加速度的前提。参考。 [7]开发了IGC系统,该系统通过将SMC技术与强大的干扰观察者相结合,可以使干扰可靠。参考。[7]开发了IGC系统,该系统通过将SMC技术与强大的干扰观察者相结合,可以使干扰可靠。参考。 [8]考虑了观察目标状态的带状搜索者的视野。 参考。 [9]考虑了末端冲击角,以增强截距的E ff效果。 参考。 [10]进行了一项研究,以使用两个快速和缓慢的控制器来应对快速的几何变化。 尽管总体研究产生了令人满意的表现,但他们也没有考虑使用噪音损坏的观察。 为了减轻这个问题,深入的加强学习(DRL)正在吸引人们作为一种新方法。 DRL是增强学习的领域,它结合了深层的神经网络和增强学习算法,因此代理商与环境互动并以最大的奖励学习了政策。 这种方法在没有预定义的解决方案的情况下解决了解决问题的巨大潜力,并已用于导弹指导和控制系统。 Ref [11]进行了一项研究,以使用深层确定性策略梯度(DDPG)技术替换导弹态度控制器。 参考。 [12]试图使用2D运动学中的DDPG技术替换现有的指导技术。 但是,基于DRL的研究并未在IGC系统中积极进行。 在这项研究中,为了克服上述研究的局限性,我们提出了基于DRL的集成指导和控制法。 此方法通过将指导和控制纳入策略网络而进行。 为此,导弹参考。[8]考虑了观察目标状态的带状搜索者的视野。参考。 [9]考虑了末端冲击角,以增强截距的E ff效果。 参考。 [10]进行了一项研究,以使用两个快速和缓慢的控制器来应对快速的几何变化。 尽管总体研究产生了令人满意的表现,但他们也没有考虑使用噪音损坏的观察。 为了减轻这个问题,深入的加强学习(DRL)正在吸引人们作为一种新方法。 DRL是增强学习的领域,它结合了深层的神经网络和增强学习算法,因此代理商与环境互动并以最大的奖励学习了政策。 这种方法在没有预定义的解决方案的情况下解决了解决问题的巨大潜力,并已用于导弹指导和控制系统。 Ref [11]进行了一项研究,以使用深层确定性策略梯度(DDPG)技术替换导弹态度控制器。 参考。 [12]试图使用2D运动学中的DDPG技术替换现有的指导技术。 但是,基于DRL的研究并未在IGC系统中积极进行。 在这项研究中,为了克服上述研究的局限性,我们提出了基于DRL的集成指导和控制法。 此方法通过将指导和控制纳入策略网络而进行。 为此,导弹参考。[9]考虑了末端冲击角,以增强截距的E ff效果。参考。 [10]进行了一项研究,以使用两个快速和缓慢的控制器来应对快速的几何变化。 尽管总体研究产生了令人满意的表现,但他们也没有考虑使用噪音损坏的观察。 为了减轻这个问题,深入的加强学习(DRL)正在吸引人们作为一种新方法。 DRL是增强学习的领域,它结合了深层的神经网络和增强学习算法,因此代理商与环境互动并以最大的奖励学习了政策。 这种方法在没有预定义的解决方案的情况下解决了解决问题的巨大潜力,并已用于导弹指导和控制系统。 Ref [11]进行了一项研究,以使用深层确定性策略梯度(DDPG)技术替换导弹态度控制器。 参考。 [12]试图使用2D运动学中的DDPG技术替换现有的指导技术。 但是,基于DRL的研究并未在IGC系统中积极进行。 在这项研究中,为了克服上述研究的局限性,我们提出了基于DRL的集成指导和控制法。 此方法通过将指导和控制纳入策略网络而进行。 为此,导弹参考。[10]进行了一项研究,以使用两个快速和缓慢的控制器来应对快速的几何变化。尽管总体研究产生了令人满意的表现,但他们也没有考虑使用噪音损坏的观察。为了减轻这个问题,深入的加强学习(DRL)正在吸引人们作为一种新方法。DRL是增强学习的领域,它结合了深层的神经网络和增强学习算法,因此代理商与环境互动并以最大的奖励学习了政策。这种方法在没有预定义的解决方案的情况下解决了解决问题的巨大潜力,并已用于导弹指导和控制系统。Ref [11]进行了一项研究,以使用深层确定性策略梯度(DDPG)技术替换导弹态度控制器。参考。 [12]试图使用2D运动学中的DDPG技术替换现有的指导技术。 但是,基于DRL的研究并未在IGC系统中积极进行。 在这项研究中,为了克服上述研究的局限性,我们提出了基于DRL的集成指导和控制法。 此方法通过将指导和控制纳入策略网络而进行。 为此,导弹参考。[12]试图使用2D运动学中的DDPG技术替换现有的指导技术。但是,基于DRL的研究并未在IGC系统中积极进行。在这项研究中,为了克服上述研究的局限性,我们提出了基于DRL的集成指导和控制法。此方法通过将指导和控制纳入策略网络而进行。为此,导弹
摘要 — 无线设备的爆炸式增长推动了物联网 (IoT) 的发展,物联网能够通过无线通信将大量不同的“事物”互连。作为正在进行的第五代 (5G) 移动网络的一部分,这也被称为海量机器类型通信 (mMTC)。可以预见,在第六代 (6G) 移动网络的帮助下,更多复杂的设备将连接起来形成一个超互联的世界。为了实现此类物联网网络的无线接入,人工智能 (AI) 可以发挥重要作用。本文介绍了集中式和分布式 AI 物联网网络的框架。分析了不同网络架构的关键技术挑战,包括随机接入和频谱共享(频谱接入和频谱感知)。介绍了基于深度强化学习 (DRL) 的策略,并利用基于神经网络的方法来有效实现频谱接入和频谱感知等系统过程的 DRL 策略。我们还讨论了可以在物联网网络中用于进行 DRL 的不同类型的神经网络。
随着物联网(IoT)的服务质量的提高(QoS)要求,移动边缘计算(MEC)无疑已成为一个新的范式,用于在用户设备(UE)附近找到各种资源,以减轻骨干iot Net-Net-Net-Net-Works的工作量。深度加固学习(DRL)已成为首选的概念,这主要是由于它可以指导每个用户设备(UE)在动态环境中做出适当决策的能力。但是,传统的DRL算法无法完全利用MEC图中设备之间的关系。在这里,我们指出了两个典型的IoT方案,即,当在UES和交叉分布式服务的编排中生成资源受限的边缘服务器(ESS)中的依赖任务时,任务卸载决策制定,其中系统成本是通过编排层次结构网络最小化的。为了进一步增强DRL的性能,图形神经网络(GNN)及其变异性为广泛的物联网场景提供了有希望的概括能力。我们相应地为上述两个典型情况提供了混凝土解决方案,即图形神经网络策略优化(GNNPPO)和图形神经网络工作 - 工作 - 工程 - 工程增强学习(GNN-MRL),它们将GNN与受欢迎的Actor-Critic方案和新开发的MRL结合在一起。最后,我们指出了四个有价值的研究方向,用于探索AI授权MEC环境的GNN和DRL。
问题描述:在此项目中,学生将采用深度强化学习(DRL)来发展机器人的操纵技巧,重点关注诸如接地操作和连接器插入等任务,这对于组装过程至关重要。选择特定的增强学习算法的灵活性允许探索各种DRL方法,例如基于价值的方法(例如DQN),基于策略的方法(例如PPO)或参与者 - 繁体架构。主要目标是设计一种控制策略,该策略使机器人能够通过与环境的互动来自主学习这些技能,从而通过反复试验和错误来提高其性能。
摘要:随着微电网(MG)的发展,能源管理系统(EMS)得到了确保,以确保MG系统的稳定且经济高效的操作。在本文中,通过利用深厚的增强学习(DRL)技术提出了智能EMS。drl被用作处理MG EMS电池能量存储的最佳调度/放电的计算硬度的有效方法。由于电池充电/放电的最佳决定取决于其连续时间步骤给出的充电状态,因此需要全日制安排以获得最佳解决方案。但是,这增加了EMS的时间复杂性,并将其变成了NP障碍问题。通过将储能系统的充电/放电功率视为控制变量,DRL代理进行了训练,以研究确定性和随机天气情况的最佳能量存储控制方法。这项研究中建议的策略在最小化购买能源的成本方面的效率也从定量的角度显示了通过编程验证和与混合整数编程和启发式遗传算法(GA)的结果进行比较。