决策通常需要平衡立即满足与长期利益。在增强学习(RL)中,这种平衡行为受到时间差异的影响,该行为量化了未来奖励的贬值。事先的研究表明,与RL中使用的常规指数折扣相比,人类决策与双曲线折扣更加与双曲线折扣保持一致。随着人造代理变得更加先进和普遍,尤其是在与人类的多代理设置中,对适当的折扣模型的需求变得至关重要。尽管已经提出了单质学习的双曲线折扣,但其在多代理增强学习中的潜力(MARL)仍未开发。我们在MAL中介绍和制定双曲线折扣,在各种框架上建立理论和实践基础,包括独立学习,集中策略差异和价值分解方法。我们评估了多余的合作任务的双曲线折扣,将其与指数折扣基线进行了比较。我们的结果表明,双曲线折扣在60%的方案中获得了更高的回报,并且在95%的任务中以指数折扣的速度表现出色,并在稀疏奖励和协调密集的环境方面得到了显着改善。这项工作为高级多代理系统开发的强大决策过程开辟了新的途径。
摘要。协作感知最近受到了广泛的关注,因为它通过跨性别信息共享增强了自动驾驶汽车的感知能力。但是,不可避免的协作噪声阻碍了存在系统的性能,这会导致功能级的空间虚构对合作者共享的信息。在本文中,我们提出了一个模型不稳定和轻巧的插件,以减轻功能级的未对准问题,称为动态功能对齐(NEAT)。整洁插件的优点为三倍。首先,我们引入了一项重要的引导查询建议,以通过太空通道语义和外观环境冗余来预测潜在的前景区域。在此基础上,提出了一个可变形的特征对齐方式,以通过查询意识的空间关联明确地对齐合作者共享的特征,从而汇总了具有纠正率不匹配属性的多层次的Vi-Sual线索。最终,我们执行了一个区域交叉发音强化,以促进对齐表示的扩散并实现全球特征语义增强。整洁可以轻松地插入现有的协作感知程序中,并显着提高了香草基线对姿势和传播延迟的鲁棒性。在嘈杂设置下的四个协作3D对象检测数据集上进行了广泛的实验,确认,整洁的大多数方法具有不同结构的方法。
摘要 - 入侵检测系统(IDS)在确保计算机网络的安全性方面起着至关重要的作用。机器学习已成为一种流行的入侵检测方法,因为它能够在大量数据中分析和检测模式。但是,当前基于ML的IDS解决方案通常很难与攻击模式的不断变化的性质和新攻击类型的出现保持同步。此外,这些解决方案面临与阶级失衡相关的挑战,其中属于不同类别(正常和入侵)的实例数量显着不平衡,这阻碍了它们有效检测次要类别的能力。在本文中,我们提出了一种新型的多代理增强学习(RL)体系结构,以实现自动,高效和健壮的网络入侵检测。为了增强所提出模型的功能,我们通过实施加权均方根损失函数并采用了成本敏感的学习技术来改善DQN算法。我们的解决方案引入了一种弹性体系结构,旨在适应新的攻击并有效地适应现有攻击模式的变化。使用CIC-IDS-2017数据集实现的实验结果,证明我们的方法可以有效地解决类不平衡问题,并以非常低的假阳性速率提供精细的攻击分类。与当前的最新作品相比,我们的解决方案在检测率和假阳性速率方面都具有显着优势。索引术语 - 入侵检测系统(IDS),多代理增强学习,深Q网络(DQN),类不平衡,CIC-IDS-2017
多代理增强学习(MARL)的领域目前正面临可重复性危机。虽然已经提出了用于解决该问题的标准化报告解决方案,但我们仍然缺乏一个实现标准化和可重复性的基准测试工具,同时利用尖端的增强学习(RL)实现。在本文中,我们介绍了台式,这是第一个MARL培训库创建的,目的是在不同的算法,模型和环境中启用标准化的基准测试。Benchmarl使用Torchrl作为后端,授予其高性能,并保持最新的信息,同时解决Marl Pytorch用户的广泛社区。其设计启用系统的配置和报告,从而使用户可以通过简单的单行输入创建和运行com-plex基准测试。Benchmarl在github上开源:https://github.com/facebookresearch/benchmarl。
多代理增强学习(MARL)系统中的对抗沟通可能会对其性能产生重大的负面影响。这可能导致系统的次级优势,这是由于不正确或误导性信息引起的决策不良。以前的消除或减少对抗性交流的方法表明,在特定情况下,多代理通信的空间特征可用于检测。但是,它们的有效性是有限的,并且没有很好的文档,尤其是在复杂的场景和针对具有国防策略知识的恶意代理商中。此外,尽管许多先前的作品都集中在代理到代理交流的规范上,但其时间的性质和特征已在很大程度上被忽略了。在这项工作中,我们基于在时间图上的异常检测技术来测试许多不同的假设,以检测MARL系统中对抗性通信的检测和抑制。此外,我们提出了一种新颖的方法,并系统地评估了其在两个复杂的合作场景上使用各种不同的对手剂的有效性。最后,我们开发了一个框架,用于通过对抗性通信进行MARL实验,该实验可以为设计一致且可重现的实验提供统一的方法。
多机构系统(MAS)在数量的现实世界中广泛普遍且至关重要,在这些应用程序中,多个代理必须在共享环境中做出决定才能实现其目标。尽管无处不在,但在MAS中的智能决策代理的发展对他们的有效实施构成了一些公开挑战。本次调查研究了这些挑战,对研究游戏理论(GT)和机器学习(ML)的开创性概念(ML)进行了兴趣,并将它们与多方面增强学习(MARL)的最新进步联系起来,即MAS中数据驱动决策的研究。因此,这项调查的目的是在MARL的各个方面提供一个全面的观点,从而阐明了MARL应用中呈现的独特机会,同时强调了这种潜力带来的固有挑战。因此,我们希望我们的工作不仅可以通过分析当前的MARL景观来为该领域做出贡献,还可以通过洞察力来激励未来的方向,以深入了解GT和ML相关领域的概念。考虑到这一点,这项工作深入探讨了MARL及其相关领域的最新和过去的努力,并描述了提出的先前解决方案及其局限性以及其应用。
单细胞RNA测序(SCRNA-SEQ)数据分析对于生物学研究至关重要,因为它可以精确地表征细胞异质性。但是,对各种工具的手动操纵来实现预期的结果,对于研究人员来说可能是劳动密集型的。为了解决这个问题,我们介绍了cillagent(http://cell.agent4science.cn/),这是一个LLM-drien的多机构框架,专门设计用于自动处理和执行SCRNA-SEQ数据分析任务,无需提供人为干预的高素质结果。首先,为了将一般LLM适应生物学领域,Cellagent构造了LLM驱动的生物专家角色(Planner,opecutor and Executor and Executor and Executor and Issutor),均具有特定的责任。然后,Cillagent引入了层次决策机制来协调这些生物专家,有效地推动了复杂数据分析任务的计划和逐步执行。此外,我们提出了
摘要通常使用各种方法来处理多代理系统中集体行为的综合,而进化算法最为普遍。在这些系统中,代理商与同龄人进行了当地的互动,并集体采用在小组层面上表现出的策略,类似于在动物社会中看到的社会行为。,我们将是Pybullet仿真工具的一部分的蚂蚁问题扩展到了涉及一组五个同质机器人的集体场景,以在运动过程中汇总。为了发展这种行为,我们与多目标健身函数一起使用了OpenAI-ES算法。我们的发现表明,尽管机器人发展了成功的运动行为,但它们并未表现出汇总。这种差异归因于设计选择,这些选择无意间强调了对聚合能力的运动。我们讨论了健身函数引起的动态相互作用,以验证我们的结果并概述未来的方向。最终,我们的目标是第一次尝试建立一个在现代模拟环境中使用高级算法分析集体行为的框架。
在机器人技术和自动驾驶汽车中的广泛应用中应用,包括无人机和其他无人机(UAVS)(UAVS),以在监视,搜索和救援和运输等领域解决任务。 在当今迅速发展的技术中,植入式智能,多通道Plathningising越来越相关。 多代理路径计划中遇到的主要问题是避免其他代理,逃避障碍物以及从起点到端点的路径。 theSproject,theObjectivesWeretocreteTeLigentAgentsCapablebablebablenavigating通过二维八代代理成本映射环境到静态目标,同时避免与其他代理商共享并同时最大程度地减少路径成本。 使用开发平台Unity和开源ML代理工具包使用了增强学习的方法,该工具包可以通过统一内部的强化学习来开发智能代理。 Perlin噪声用于生成成本图。 使用强化学习算法近端政策优化用于训练代理。 该培训是作为课程的结构,其中包括两个课程,第一堂课旨在教代理人到达目标,而无需与其他代理人相撞或脱离界限。 第二堂课旨在教代理商以最大程度地降低路径成本。 项目成功实现了其目标,可以通过视觉检查和将最终模型与基线模型进行比较来确定。 降低路径成本6%。,包括无人机和其他无人机(UAVS)(UAVS),以在监视,搜索和救援和运输等领域解决任务。在当今迅速发展的技术中,植入式智能,多通道Plathningising越来越相关。多代理路径计划中遇到的主要问题是避免其他代理,逃避障碍物以及从起点到端点的路径。theSproject,theObjectivesWeretocreteTeLigentAgentsCapablebablebablenavigating通过二维八代代理成本映射环境到静态目标,同时避免与其他代理商共享并同时最大程度地减少路径成本。使用开发平台Unity和开源ML代理工具包使用了增强学习的方法,该工具包可以通过统一内部的强化学习来开发智能代理。Perlin噪声用于生成成本图。使用强化学习算法近端政策优化用于训练代理。该培训是作为课程的结构,其中包括两个课程,第一堂课旨在教代理人到达目标,而无需与其他代理人相撞或脱离界限。第二堂课旨在教代理商以最大程度地降低路径成本。项目成功实现了其目标,可以通过视觉检查和将最终模型与基线模型进行比较来确定。降低路径成本6%。基线模型仅经过训练才能达到目标,同时避免碰撞,而不会最大程度地减少路径成本。对模型的比较表明,最终模型的表现优于基线模型,平均达到27。
摘要急救响应者管理(ERM)系统会在收到医疗援助请求时派遣救护车(例如救护车)。erm系统还可以在预先指定的等待位置之间主动重新定位,以涵盖由于事先派遣响应者或预期要求的分配的重大变化而产生的任何差距。最佳重新定义在计算上是充满挑战的,这是因为在未来请求中分配位置和不确定性之间的重新计算方法的指数数量。主动重新定位的最新方法是基于空间分解和蒙特卡洛树搜索的层次结构,这可能需要在几秒钟可以挽救生命的域中每个决策的计算分钟。我们通过基于相同的层次结构的分解,但通过学习替换学习来代替在线搜索,从而为漫长的决策时间问题打扮了漫长的决策时间。To address the computational challenges posed by large, variable-dimensional, and discrete state and action spaces, we propose: (1) actor-critic based agents that incorporate transformers to han- dle variable-dimensional states and actions, (2) projections to fixed-dimensional observations to handle complex states, and (3) combinatorial tech- niques to map continuous actions to discrete al- locations.我们使用来自美国田纳西州纳什维尔和华盛顿州西雅图的两个城市的现实世界数据来评估我们的方法。我们的实验表明,与艺术的状态相比,我们的方法将每个决策的计算时间减少三个数量级,而同时也将平均救护车响应时间稍微降低了5秒。
