摘要 - 无细胞(CF)大量多输入多重输出(MMIMO)是一种使用多个分布式接入点(APS)实现高光谱效率(SE)的有前途的技术。但是,由于高渗透率损失,苛刻的传播环境通常会导致沟通性能的显着降解。为了克服此问题,我们将可重新配置的智能表面(RIS)引入CF MMIMO系统中,作为低成本和功率较高的解决方案。在本文中,我们专注于优化RIS辅助CF MMIMO系统的关节预编码设计,以最大化总和SE。这涉及优化APS处的预编码矩阵和RIS的反射系数。为了解决这个问题,我们提出了包含模糊逻辑(FL)的完全分布的多代理增强学习(MARL)算法。与依靠交替优化技术的常规方法不同,我们基于FL的MARL算法仅需要本地渠道状态信息,这减少了对高回程容量的需求。仿真结果表明,我们提出的FL-MARL算法有效地降低了计算复杂性,同时达到与常规MARL方法相似的性能。
目前,世界上许多高级技术都使用多代理系统来控制和管理智能电网中的能源,讨论多代理系统能源管理的作用对未来的电力系统具有重要意义。本论文的重点是多代理系统在智能电网的能源管理部分的潜在作用。首先,论文通过分析最先进的文献,分析多代理系统的内部结构和通信过程,全面地描述了智能电网架构及其关键特征,并演示了当前智能电网中当前高级多主体系统的各种应用。接下来,论文通过其在能源管理中的应用来分析多代理系统的作用。最终期待多代理系统的未来,并探索解决系统缺陷的方法。在电网中使用多代理系统用于能源管理,对于实现可再生能源产生的目标并具有有希望的市场很重要。本论文可以为优化智能电网模型和提高能量控制效率提供指导。
摘要 - 已研究了用于支持多样化应用的Space-Air-fromend集成网络(SAGIN)切片,该应用由陆地(TL)组成,由基站(BS)部署(BS),由无人驾驶汽车(无人驾驶汽车(UAV)的空中层部署的空中层(AL)组成。每个Sagin组件的能力是有限的,在退出文献中尚未完全考虑高效和协同负载平衡。为了这种动机,我们最初提出了一种基于优先级的载荷平衡方案,用于Sagin切片,其中AL和SL合并为一层,即非TL(NTL)。首先,在相同的物理萨金下建造了三个典型的切片(即高通量,低延迟和宽覆盖片)。然后,引入了一种基于优先级的跨层负载平衡方法,用户将拥有访问陆地BS的优先级,并且不同的切片具有不同的优先级。更具体地说,超载的BS可以将低优先级切片的用户卸载到NTL。此外,通过制定多目标优化问题(MOOP),共同优化相应切片的吞吐量,延迟和覆盖范围。此外,由于TL和NTL的独立性和优先级关系,上述摩托车被分解为两个子摩托车。报告的仿真结果表明了我们提出的LB方案的优势,并表明我们所提出的算法优于基准测试器。最后,我们自定义了一个两层多代理的深层确定性策略梯度(MADDPG)算法,用于求解这两个子问题,该问题首先优化了TL的用户-BS关联和资源分配,然后确定UAVS的位置部署,USE-UAV/Leo satellite Satellite Association和NTL的资源分配。
摘要 - 群体机器人技术体现了多代理系统中合作控制中的边界,在该系统中,生物群的仿真提供了机器人技术的范式转移。本文深入研究了分散决策的机制以及自主机器人之间的局部相互作用而产生的新兴行为,而无需中央控制器。它探讨了简单的控制规则的综合,这些规则产生了复杂,适应性和可扩展的群体行为,类似于自然群中的行为。对通信协议进行的批判性检查阐明了代理之间的信息共享如何导致集体任务的强大执行。该研究进一步研究了角色分配,任务分配和冗余的动态,这对于群体机器人系统的弹性至关重要。通过模拟和经验分析,证明了群算法在各种应用中的功效,包括搜索和救援,环境监测和集体构造。该研究的发现强调了生物启发算法的重要性以及群体机器人系统在不可预测的环境中适应和繁荣的潜力。对自治系统的未来的影响是深远的,因为群机器人技术为分布式人工智能和机器人的创新铺平了道路。
最近,许多对人工智能科学感兴趣的主要公司和组织都为自动驾驶汽车开发了工作原型。尽管自动驾驶汽车行业的重要性,制造公司的数量已增加到35多家公司,包括Lucid,General Motors,Toyota,Apple,Google,Google,Intel,Audi和BMW。W,特斯拉,Uber,Ford等。自动驾驶汽车的重要性在于它们在没有人类互动的情况下提供用户和商品的潜力。他们可以使用智能算法提供更安全,更高效和方便的运输解决方案。在车辆中对自主权的追求刺激了汽车制造商,技术公司和研究人员之间的合作,从而在机器学习,计算机视觉和传感技术方面取得了重大进展。随着这些创新的不断发展,自动驾驶汽车不仅可以重塑城市规划,交通管理和社区流动性的更广泛方面[1,2]。根据世界卫生组织(WHO)的说法,每年在世界范围内大约有130万人死于车祸,超过
多机构增强学习(MARL)中的学习预期是一种推理范式,代理人预期了其他代理人的学习步骤,以改善彼此之间的合作。作为MARL使用基于梯度的优化,使用高阶梯度(HOG)学习预期的质量,并采用所谓的HOG方法。现有的HOG方法基于策略参数预期,即代理预测其他代理的策略参数的变化。当前,这些现有的HOG方法仅针对具有较小状态空间的可差游戏或游戏。在这项工作中,我们证明,在具有较大状态空间的非差异游戏的情况下,现有的HOG方法的性能不佳,并且由于其固有的限制与策略参数预期和多个采样阶段有关。为了克服这些问题,我们提出了O杀性策略行动预期(O效应),这是一个新颖的框架,通过行动预期来学习学习预期,即代理人通过O杀害政策采样来期待其他代理商的行动变化。我们理论上分析了我们提出的O pa2,并采用它来开发多种猪方法,这些方法适用于具有较大状态空间的非差异游戏。我们进行了大量的实验,并说明我们提出的HOG方法的表现优于现有的效率和性能。
摘要 - 基于信息的覆盖范围指示机器人在区域上移动,以根据某种信息来优化预定义的目标函数。我们先前的工作确定信息图的光谱分解可用于指导一组异质剂,每个剂具有不同的传感器和运动模型,以基于一种称为Ergodicity的度量来优化目标区域中的覆盖范围。在本文中,我们建立在这种见解的基础上,以构建将异质剂分配给频域中不同搜索区域的问题的增强学习公式。我们以三种不同的方式将搜索映射的光谱系数相互关联。第一个方法将代理映射到预定的光谱系数集。在第二种方法中,每个代理都会在所有光谱系数上学习重量分布。最后,在第三种方法中,每个代理都将权重分布作为参数化曲线而不是系数。我们的数值结果表明,根据其感应和运动模型将覆盖责任分配和分配覆盖责任会导致40%,51%和46%的覆盖范围提高覆盖范围的效果,如麦加德指标所测量的覆盖范围,并在搜索区域中分别在搜索区域中提高了所有目标。
摘要:有效的,可扩展的和成本效益的资源管理是一个多方面的在线决策问题,在网络和云计算方面越来越面临。更具体地,任务安排是一个复杂的挑战,解决了当今系统的最佳功能至关重要。调度的传统启发式方法在设计上很费力,尤其是很难调节,因此已经提出了各种基于机器的方法。强化学习(RL)在类似的决策问题中显示出很大的结果,许多现有方法采用RL来解决任务调度问题。这些作品中的大多数都考虑了单一代理的方案(因此遭受可伸缩性问题),或者现有的多代理应用程序非常专业。我们提出了一个通用多代理RL框架,该框架可以成功地学习协作最佳的调度策略,从而向既可以扩展又自主的云和网络迈出一步。我们的实验表明,这些代理可以协作学习动态工作负载的最佳调度策略。
我们介绍了CEMA:c ausal e xplanations in m ulti-themens stystems;在动态的顺序多代理系统中创建因果自然语言解释的框架,以构建更值得信赖的自主代理。与假定固定因果结构的先前工作不同,CEMA仅需要一个概率模型来正向缩减系统状态。使用这种模型,CEMA模拟了反事实世界,这些世界识别了代理决定背后的显着原因。我们评估CEMA的自动驾驶运动计划任务,并在各种模拟场景中对其进行测试。我们表明,即使存在大量其他代理商,CEMA正确地识别了代理决定背后的原因,并通过用户研究表明,CEMA的解释对参与者对自动驾驶汽车的信任具有积极影响,并且对其他参与者的高度基线解释的评价也很高。我们以注释作为HeadD数据集发布了收集的解释。
价值函数分解已成为在培训和分散执行范式下进行合作多代理增强学习的普遍方法。这些算法中的许多算法通过使用代理实用程序的单调混合函数来分配最佳的关节作用功能,以确保分散决策的关节和局部选择之间的相干性。尽管如此,利用单调混合函数也会引起表示局限性,并且在单调函数类别上找到无约束的混合函数的最佳投影仍然是一个开放的问题。在本文中,我们提出了QPRO,该QPRO对价值函数分解的最佳投影问题置于遗憾的是对不同过渡的投影权重的最小化。可以使用Lagrangian乘数方法放松和解决此优化问题,以遵守封闭形式的最佳投影权重,在该方法中,我们通过最大程度地减少预期收益的遗憾政策,从而缩小最佳和受限单调混合功能之间的差距,从而增强单调值函数分支。我们的实验证明了我们方法的有效性,表明在具有非单调价值函数的环境中的性能提高了。
