摘要 - 物联网(IoT)设备和新兴应用程序的指数增长显着提高了对无处不在的连通性和有效计算范式的要求。传统的地面边缘计算体系结构无法在全球范围内提供庞大的物联网连接。在本文中,我们提出了一个由高空平台(HAP)和无人机(无人机)组成的航空层级移动边缘计算系统。特别是,我们考虑了不可分割的任务,并制定了流动问题的任务,以最大程度地降低任务的长期处理成本,同时满足流量的过程和任务处理过程中的排队机制。我们提出了基于多代理的深钢筋学习(DRL)的流量算法计算,其中每个设备可以根据局部观察结果做出其流量决策。由于无人机的计算资源有限,无人机的高任务负载将增加放弃流量任务的比率。为了增加完成任务的成功率,使用卷积LSTM(Convlstm)网络来估计无人机的未来任务负载。此外,提出了优先的体验重播(PER)方法以提高收敛速度并提高训练稳定性。实验结果表明,所提出的流量算法的计算优于其他基准方法。
⋆该手稿由UT-Battelle,LLC共同撰写,根据与美国能源部(DOE)合同DE-AC05-00OR22725合同。美国政府保留和出版商,通过接受该文章的出版物,承认美国政府保留了非判定,有偿,不可撤销的,全球范围内的许可,以出版或复制本手稿的已发表形式,或允许其他人这样做,以实现美国政府的目的。DOE将根据DOE公共访问计划(http://entergy.gov / downloads / doe-public-access-plan),为联邦赞助研究的这些结果提供公众访问。∗对应作者。电子邮件地址:xuh4@ornl.gov(haowen xu),yuanj@ornl.gov(jinghui yuan),zhoua@ornl.gov(anye zhou),xug1@ornl.gov
(Durango-Cohen&Sarutipand,2007; Hong&Prozzi,2010; Yeo等,2010,2013; Z. Zhang等,2017)。相比之下,很少考虑人行道之间的相互依赖性,尤其是与道路功能相关的人。通常,路面网络中的相互依赖性可以是经济,随机或功能(Durango-Cohen&Sarutipand,2007,2009)。eco-wimic依赖性(Durango-Cohen&Sarutipand,2007,2009)。预算限制是路面管理领域经济相互依存的最常见例子,并且是网络级别M&R决策中重要的考虑之一。随机依赖性发生在由于某些常见原因(例如,环境或交通负荷; Durango-Cohen&Sarutipand,2007,2009)的情况下,组件的失败概率或组件的时间与时间之间相关。功能依赖性是指一个组件的功能取决于另一个组件的功能的情况(Durango-Cohen&Sarutipand,2007,2009; Medury&Madanat,2013)。在路面管理的背景下,功能依赖性来自道路网络的连通性以及驾驶员希望选择以最低旅行成本的路线的愿望。先前的研究表明,在工作区运营期间的车道关闭和由于维护不足而导致的铺路条件较差将导致交通延迟和车辆运营成本增加(VOC; Adeli&Ghosh-Dastidar,2004; Adeli&Jiang,2008; Santhtos et al。,2017)。因此,通过这些细分市场的路线上的旅行成本可能会增加,驾驶员可能会重新路由以避免高旅行成本细分市场,从而导致整个道路网络的交通流量重新分布(Guan等,2022; Uchida&Kagaya,2006)。因此,一个细分市场的条件可能会影响另一个细分市场的交通水平,这将进一步影响该细分市场的路面性能和相应的M&R策略(Durango-Cohen&Sarutipand,2009)。相反,一个细分市场的M&R决策也与网络中其他片段的状况有关。这表明路面段的功能依赖性。M&R策略可能会阻碍有效的决策支持,因为管理过程中的重大收益和成本可以归因于连接系统段的相互依赖性(Durango-Cohen&Sarutipand,2009年)。然而,现有的路面管理研究很少考虑道路细分之间的这种功能依赖性,并且缺乏定量理由来理性的阶段独立性假设。许多研究采用了两个阶段的自下而上(TSBU)框架,该框架首先确定每个细分市场的替代M&R计划,
向分散的可再生能源(例如太阳能和风)的转变需要能源需求才能适应天气条件,从而对电网构成挑战。传统解决方案涉及加强网格或基于预测和线性优化或基于规则的方法的管理系统。这些常规模型是复杂且刚性的,需要对不同的网格拓扑进行大量的手动适应,通常会限制优化潜力。作为替代性的深入增强学习(DRL)提供了一种更灵活,更适应性的方法。drl自主探索并从其环境中学习,消除了对明确的数学配方的需求,并使其非常适合动态能源管理系统。
摘要 - 我们考虑了一个仓库,其中数十个移动机器人和人类采摘者共同努力收集和运送仓库中的物品。我们解决的基本问题(称为采摘订单问题)是这些工人代理必须如何协调其在仓库中的动作和行动,以最大程度地提高此任务的性能。使用启发式方法建立的行业方法需要大量的工程工作,以优化天生的仓库配置。相比之下,可以灵活地应用多代理增强学习(MARL)大小,布局,工人的数量/类型,项目补充频率)和不同类型的采摘订单范式(例如,商品对人和人的物品),因为代理商可以学习如何通过经验来最佳合作。我们开发了层次的MARL算法,在该算法中,经理代理商将目标分配给工人,经理和工人的政策是为了最大程度地提高全球目标(例如,选择率)。我们的层次结构算法在基线MARL算法上取得了显着提高,并且在多种仓库配置和不同的订单挑选范式中,多个已建立的行业启发式方法的总体选择率和整体选择率在多个已建立的行业启发式方面实现了显着提高。
多旋翼无人机(UAV)已转变为能够通过未知环境导航的智能代理。这种演变强调了它们自主操作并适应多样化和挑战的场景的能力。无与伦比的研究经常面临一个重大问题:缺乏真实和多样化的培训数据。为了解决这个问题,我们介绍了U2USIM,这是一个远程仿真平台,旨在在UAV-TO-TO-UAV(U2U)合作学习和体现AI研究中进行现实的合成数据生成,性能评估和可视化。模拟提供了一种有效的解决方案,可以实现实时可容纳能力,高可操作性,高分辨率图像和成本效益[8]。以前的仿真平台,例如Airsimw [2],Xtdrone [7],Smrtswarm [1],在镜像现实世界环境中受到限制。受Ros-Gazebo-Px4工具链的启发,以视觉大满贯和导航而闻名,我们提出了U2USIM平台。此工具利用UE [5],Airsim [6]和ROS [4]来结构具有动态和现实的虚拟环境的实时交互式平台。
虽然在单药强化学习(RL)的背景下广泛研究了任务概括,但在多代理RL的背景下,很少有研究。确实存在的研究通常将任务概括视为环境的一部分,当明确认为没有理论保证时。我们提出了以目标为导向的多任务多任务多代理RL(GOLEMM)的学习,该方法实现了可以证明是最佳的任务概括,据我们所知,在MARL中还没有实现。在学习了单个任意任务的最佳目标价值函数之后,我们的方法可以零弹性地推断出分布中任何其他任务的最佳策略,仅给出了每个代理的终端奖励的知识,即新任务和学习任务。从经验上我们证明,我们的方法能够概括一个完整的任务分布,而代表性基线只能学习任务分布的一小部分。
合作的多代理增强学习(MARL)需要在代理之间进行无缝的协作,通常以基本关系图来表示。现有学习该图的现有方法主要集中于代理关系关系,并具有高阶关系。虽然几种方法试图扩展合作模式以包含组内的行为相似性,但它们通常同时学习潜在图,从而在部分观察到的药物之间限制了信息交换。为了克服这些局限性,我们提出了一种新的方法来推断群体感知的坐标图(GACG),该方法旨在根据当前观察结果和群体级别的依赖性从跨轨迹观察到的行为模式来捕获代理对之间的合作。该图进一步用于图形卷积,以在决策过程中进行信息交换。为了进一步确保同一组中的代理人之间的行为一致性,我们引入了群体距离损失,该距离损失会产生群体的凝聚力并鼓励组之间的专业化。我们的评估是在Starcraft II微管理任务上进行的,是GACG的出色表现。一项消融研究进一步提供了我们方法每个组成部分有效性的实验证据。
网络结构在社会困境内促进群体合作中的重要性已得到广泛认可。先前的研究将这种促进性归因于空间相互作用驱动的各种策略。尽管已经采用了强化学习来研究动态互动对合作演变的影响,但仍然缺乏对代理如何发展邻居选择行为以及在显式相互作用结构中形成战略分类的影响。为了解决这个问题,我们的研究介绍了一个基于空间囚犯困境游戏中多代理增强学习的计算框架。此框架使代理商可以根据他们的长期经验选择困境策略和互动邻居,与依赖于预设社会规范或外部激励措施的现有研究不同。通过使用两个不同的Q-networks对每个代理进行建模,我们可以纠缠着共同操作和相互作用之间的协同进化动力学。结果表明,长期经验使代理人能够发展出识别非合作邻居并表现出与合作社相互作用的偏爱的能力。这种紧急的自组织行为导致具有相似策略的代理的聚类,从而增加网络互惠并增强群体合作。
摘要 - 作为自主代理的LARGE语言模型(LLMS)为通过知识驱动的方式提供了一种新颖的途径来应对现实世界中的挑战。这些LLM增强方法在概括和解释性方面表现出色。,驾驶任务的复杂性通常需要多种异构代理的协作,从而强调了这种LLM驱动的代理人需要进行合作知识共享和认知协同作用。尽管有LLMS的承诺,但当前的应用程序主要集中在单位代理方案围绕单位方案,这限制了面对复杂的,相互联系的任务的范围。为了扩大知识驱动的策略的视野,并加强了自主代理的概括能力,我们提出了Koma框架的多代理相互作用,多代理相互作用,多步规划,共享 - 内存,基于等级的反射模式,以增强多机构在复杂的驾驶场景中的决策效果。基于框架生成的驾驶场景的文本描述,多代理交互模块使LLM代理可以根据场景信息(类似于人类认知)来分析和推断周围车辆的意图。多步规划模块使LLM代理能够逐层分析并获得最终的行动决策,以确保对短期行动决策的目标目标。共享内存模块可以积累集体经验以做出出色的决策,而基于排名的反射模块可以评估和改善代理行为,以增强驾驶安全性和效率。项目页面:https://jkmhh.github。io/ koma/。Koma框架不仅增强了自动驾驶剂的鲁棒性和适应性,而且还显着提高了其在各种情况下的概括能力。经验结果证明了我们的方法优于传统方法,尤其是在处理复杂,不可预测的驾驶环境的能力而没有广泛的重新培训的能力上。
