摘要在本文中,我们将自2010年以来尼日利亚南部的大规模麻疹疫苗接种运动与他们的估计影响相比,与2019年发生的独特,更具针对性的常规免疫强度相比。整个讨论的一个主要重点是,量化干预对实际流行病学的影响要求我们消除竞争竞争,动态免疫来源,包括未报告的感染。为了应对这一推论挑战,我们创建了一个国家级,随机传输模型的集合,能够根据监视和调查数据估算潜在的麻疹易感性。利用这些模型,我们发现,尽管规模限制了2岁以下的儿童,但2019年的强化对传播的影响与该地区针对5个儿童的较大疫苗接种运动相当。这意味着在这项工作中输送的疫苗到达易感儿童的可能性是两倍以上。
摘要 — 设计智能机制以促进和加速服务部署和管理是网络基础设施提供商面临的最具挑战性的方面之一。这是由于他们预计要支持的大量流量、架构的分散性质以及他们运行的服务以满足质量目标并避免违反服务水平协议 (SLA)。因此,通信服务提供商 (CSP) 正致力于减少能源消耗和减少其网络基础设施的碳足迹。在未来的通信网络中,传统的管理机制和集中式传统解决方案在确保基础设施提供商、服务提供商的收入以及最终用户的良好体验质量 (QoE) 方面显示出其局限性。这些服务的部署通常需要有效分配虚拟网络功能转发图 (VNF-FG)。在此背景下,我们提出了一种基于多智能体注意力的深度强化学习 (DRL) 的智能节能 VNF-FG 嵌入方法。我们的贡献使用半分布式 DRL 机制进行 VNF-FG 放置。事实证明,所提出的算法在接受率、功耗和执行时间方面优于以前最先进的方法。索引词——能源效率、深度强化学习、注意力、多智能体、虚拟网络功能嵌入。
对自动网络防御的一个重大挑战是确保防御力代理在各种网络拓扑和配置之间概括的能力。在部署在动态变化的环境中,例如设备可能经常加入并离开的企业网络时,该功能必须保持有效。深入加固学习的标准方法,其中策略是使用固定输入的多层感知器(MLP)的参数化的,期望固定尺寸的观察和动作空间。在自主的网络防御中,这使得很难开发具有与受过训练的网络拓扑不同的环境,因为节点的数量会影响观察和动作空间的自然大小。为了克服这一限制,我们使用基于实体的信息进行学习重新构建了自主网络防御的问题,在这种学习中,代理的观察和动作空间被分解为离散实体的集合。此框架可以使用专门用于组成概括的策略参数。我们将基于变压器的政策培训有关打哈欠泰坦网络安全模拟环境的政策,并在各种网络托管中测试其概括能力。我们证明,当跨越不同拓扑的固定尺寸网络训练时,这种方法在训练固定尺寸的网络上时会大大优于基于MLP的策略,并且在单个网络上进行培训时的性能匹配。我们还证明了与训练中看到的网络零弹性概括的潜力。这些发现突出了基于实体的强化学习的潜力,可以通过提供能够在现实世界网络环境中处理差异的更普遍的策略来推进自动网络防御的领域。
摘要:我们解决了由铅酸电池和氢存储组成的混合储能系统的控制问题。该系统由光伏板供电,为部分孤岛建筑供电。我们的目标是长期最大限度地减少建筑碳排放,同时确保 35% 的建筑能耗由现场生产的能源提供。为了实现这一长期目标,我们建议使用深度强化学习方法学习一种基于建筑和存储状态的控制策略。我们重新表述问题,将动作空间维度缩减为 1。这大大提高了所提出方法的性能。鉴于重新表述,我们提出了一种新算法 DDPG α rep ,使用深度确定性策略梯度 (DDPG) 来学习策略。一旦学会,就使用此策略执行存储控制。模拟表明,氢存储效率越高,学习越有效。
摘要。本文提出了一种深度强化学习方法,用于智能电网中多能源系统的优化管理。智能电网中生产和存储单元的最优控制问题被表述为部分可观测马尔可夫决策过程 (POMDP),并使用参与者-评论家深度强化学习算法进行解决。该框架在一个新型多能源住宅微电网模型上进行了测试,该模型涵盖电力、供暖和制冷存储以及热力生产系统和可再生能源发电。处理此类多能源系统的实时最优控制时面临的主要挑战之一是需要同时采取多种连续行动。所提出的深度确定性策略梯度 (DDPG) 代理已证明能够很好地处理连续状态和动作空间,并学会了同时对生产和存储系统采取多种行动,从而可以联合优化智能电网中的电力、供暖和制冷使用情况。这使得该方法可应用于更大规模多能源智能电网(如生态区和智能城市)的实时最优能源管理,这些电网需要同时采取多项连续行动。
摘要 - 预言学习(RL)已被证明在未来的智能无线网络中起着有希望的作用。在线RL已用于无线电资源管理(RRM),接管了传统计划。但是,由于依靠与环境的在线互动,其作用在在线互动不可行的实际,现实世界中受到限制。此外,在现实世界随机环境中的不确定性和风险面前,传统的RL在不确定性和风险面前处于短缺状态。以这种方式,我们为RRM问题提出了一个离线和分配RL方案,可以使用静态数据集启用离线培训,而无需与环境相互作用,并使用退货的分布来考虑不确定性的来源。仿真结果表明,所提出的方案的表现优于常规资源管理模型。此外,这是唯一超过在线RL的方案,比在线RL增长10%。索引术语 - 分布强化学习,离线强化学习,无线电资源管理
近来,需要高平均功率激光束的应用数量急剧增加,涉及大型项目,如空间清洁 [1]、航天器推进 [2]、粒子加速 [3],以及工业过程 [4] 或防御系统 [5]。激光光束组合是达到极高功率水平的最常用方法之一,特别是相干光束组合 (CBC) 技术 [6]。它们旨在对放大器网络传输的平铺激光束阵列的发射进行相位锁定,以产生高亮度的合成光束。由于实际激光系统(尤其是光纤激光系统)中阵列中光束之间的相位关系会随时间演变,因此这些技术必须通过伺服环路实时校正合成平面波的相位偏差。近年来,CBC 技术得到了广泛发展,探索了调整合成离散波前中各个相位的不同方法。它们可以分为两大类。在第一类中,测量阵列中光束的相位关系,然后进行校正 [7]。在第二种方法中,实际波前和期望波前之间的差异通过迭代过程得到补偿 [8]。在后一种情况下,优化算法驱动反馈回路,分析所有光束之间干涉的阵列相位状态的更多全局数据 [9,10]。这些技术通常更易于实施,所需电子设备更少,但需要更复杂的数值处理,其中一些技术在处理大量光束时速度会降低。最后一个问题与反馈回路中达到预期相位图所需的迭代次数有关,该迭代次数会随着要控制的相位数的增加而迅速增加。最近,人们研究了神经网络 (NN) 和机器学习,以期找到一种可能更简单、更有效的方法来实现相干光束组合。已发表的文献 [11] 中涉及的一种方案依赖于卷积神经网络 (VGG) 的直接相位恢复,然后一步完成相位校正,例如在自适应光学 NN 的开创性工作 [12]。 NN 用于将光束阵列干涉图样的强度(在透镜焦点处形成的远场或焦点外的图像、分束器后面的功率等)直接映射到阵列中的相位分布中。恢复初始相位图后,可以直接应用相位调制将相位设置为所需值。[11] 中报告的模拟表明,当阵列从 7 条光束增加到 19 条光束时,基于 CNN 的相位控制的精度会下降。这一限制在波前传感领域也得到了强调,因此 NN 通常仅用作初始化优化程序的初步步骤 [13]。另一种可能的方案是强化
预印本(未通过同行评审认证)是作者/资助者。保留所有权利。未经许可就不允许重复使用。该版本的版权持有人于2025年1月19日发布。 https://doi.org/10.1101/2025.01.15.633177 doi:biorxiv preprint
摘要 —本文介绍了一种新颖的多智能体强化学习 (MARL) 框架,以使用无人机 (UAV) 群作为传感雷达来增强综合传感和通信 (ISAC) 网络。通过将无人机的定位和轨迹优化构建为部分可观测马尔可夫决策过程,我们开发了一种 MARL 方法,该方法利用集中训练和分散执行来最大化整体传感性能。具体来说,我们实施了一种分散的合作 MARL 策略,使无人机能够制定有效的通信协议,从而增强其环境意识和运营效率。此外,我们通过传输功率自适应技术增强了 MARL 解决方案,以减轻通信无人机之间的干扰并优化通信协议效率。此外,还结合了传输功率自适应技术来减轻干扰并优化学习到的通信协议效率。尽管复杂性增加,但我们的解决方案在各种场景中都表现出强大的性能和适应性,为未来的 ISAC 网络提供了可扩展且经济高效的增强功能。索引术语 — 多智能体强化学习 (MARL)、综合传感和通信 (ISAC)、无人机 (UAV)。