有效的探索对于在复杂的协调任务中发现多智能体强化学习 (MARL) 的最优策略至关重要。现有的方法主要利用内在奖励来实现承诺性探索,或者使用基于角色的学习来分解联合动作空间,而不是直接在整个动作观察空间中进行集体搜索。然而,它们在获取特定的联合动作序列以在长期任务中达到成功状态时经常面临挑战。为了解决这一限制,我们提出了想象、初始化和探索 (IIE),这是一种新颖的方法,为复杂场景中的高效多智能体探索提供了一种有前途的解决方案。IIE 采用变换器模型来想象智能体如何达到可以影响彼此转换函数的临界状态。然后,我们在探索阶段之前使用模拟器初始化此状态下的环境。我们将想象表述为序列建模问题,其中状态、观察、提示、动作和奖励是自回归预测的。该提示由剩余时间步长、剩余返回值、影响力值和一次性演示组成,用于指定期望状态和轨迹并指导动作生成。通过在关键状态下初始化智能体,IIE 显著提高了发现潜在重要且未被充分探索区域的可能性。尽管方法简单,但实证结果表明,我们的方法在星际争霸多智能体挑战赛 (SMAC) 和 SMACv2 环境中的表现优于多智能体探索基线。尤其值得一提的是,与其他生成方法(例如 CVAE-GAN 和扩散模型)相比,IIE 在稀疏奖励 SMAC 任务中表现出色,并且在初始化状态下生成了更有效的课程。
引言:在过去的几十年里,机器学习从针对简单分类任务的(无)监督学习算法 [1-3] 发展到用于下围棋 [6] 和《星际争霸 II》[7] 的深度学习算法 [4,5]。通过使用标记数据进行调整,监督学习可以得到训练有素的分类或预测模型。然而,现实世界中的大多数数据都是未标记的,因此标记成本在化学/生物实验、工业破坏性测试等方面至关重要 [8,9]。与此同时,机器学习协议已经展示了其完成量子任务和研究量子系统特性的能力 [10-15]。这些协议已经应用于与量子信息检索相关的量子计量领域,利用强化学习 (RL) [ 16 ] 来控制测量过程的某些方面 [ 17 , 18 ]。我们还可以在科学文献 [ 19 ] 中找到用于测量控制的 RL 的量子版本 [ 20 , 21 ]。量子信息检索的关键问题是设计一个最优计划,使测量成本最小化,同时在没有明确定义奖励的情况下提取相关信息用于进一步的任务。主动学习 (AL) 基于这样一个假设:在一小组标记样本上训练的模型的表现可以与在所有样本都已标记的数据集中训练的模型一样好 [ 22 , 23 ]。因此,该框架非常适合解决上述关键信息问题的必要要求。简而言之,AL 考虑了标记成本,即测量造成的保真度损失。它分析最具信息量的模式(量子态),以提出保证最大知识增益的最少数量的标记(测量)。最近有研究建议将 AL 应用于量子信息 [ 24 ],采用 AL 的定义如下
1 Zhiding Yang A Hybrid Approach for Wave Height Estimation from Rain-Contaminated Radar Images Based on Segmentation and Iterative Dehazing 2 Wanglong Lu TextDoctor: Unified Document Image Inpainting via Patch Pyramid Diffusion Models 3 Sachithra H Atapattu Enhancing the Region of Attraction of a Multi-Rotor UAV Using Neural Network-Based iLQR Control 4 Zahra Jafari A Novel Method for Estimation of Sea-Surface Wind Speed from SAR Imagery 5 Jesse Chen An Evaluation of the Effect of Seasonal Evolution on GNSS Reflectometry Based Sea Ice Classification Using Random Forest Classifiers 6 Manish Patel Optimization-Based Design and Reliability Assessment of a Hybrid Energy System for Natuashish, Labrador 7 Xin Qiao Ocean Surface Wind Speed Estimation From GNSS-R Data Using CNN-Transformer Network 8 Afzal Ahmed A对Windows 11和Ubuntu上媒体玩家功耗的比较分析24.04.1 9 Fatemeh Kafrashi设计以及浮动太阳能的反渗透饮用水系统Kish Island 10 Syed Nafiz Imtiaz设计和Newfoundland Stephenville H2项目的500 MW Winderf Project Syed Nafiz Imtiaz设计和模拟。23 Sondos Omar陡坡 - 修改深神经网络,以减轻消失的梯度问题24 ASAD MEHMOOD HASSAN设计和分析Lahore模型镇房屋的光伏系统的分析,使用Homer Pro。11 Benjamin f Stanley搜索订购星际争霸订单优化的订购12 yi li改进了PCS从X频段雷达数据中从X频段雷达数据中检索的PCS算法13 RUSLAN MASINJILA对象操纵使用多模式,基于触觉的感应和使用Ahsan Mustaf for Aduning大型语言15 Khan khan khan khan khan khan khan khan khan khaan khaan khaan khaan khaan khaan khaan khaan基于ARM的CPU 16 RIDWANULLAH ABDULKAREEM FPGA基于GNSS-R整合的海洋监测的实时信号处理17 Samarasimha Reddy Chittamuru机器基于机器学习的功率预测亨利·拉尔森(Henry Larsen Thilakanayake Generative Adversarial Network Based Synthetic Radar Image Generation Method for Automotive Perception Datasets 20 Nirasha Herath Real-Time Video Super-Resolution Using Generative Adversarial Networks 21 Masoud Torabi Enhanced Radar Cross Section Modeling for Ocean Surface 22 Nnaemeka Nwauzor Dynamic Simulation of Solar Energy System for A Shop in Nigeria Providing Community Cellphone Charging Service.