维度 值 模块化 扁平、模块化、层次化 规划范围 非规划、有限阶段、无限阶段、无限阶段 表征 状态、特征、关系 计算极限 完全理性、有限理性 学习 知识是给定的、知识是学习的 感知不确定性 完全可观察的、部分可观察的 效果不确定性 确定性的、随机的 偏好目标、复杂偏好 代理数量 单个代理、多个代理 交互 离线、在线
通过层沉积技术进行原子级材料合成为控制材料结构和产生具有独特功能特性的系统提供了独特的机会,而这些特性无法通过传统的批量合成路线稳定下来。然而,沉积过程本身呈现出一个巨大的多维空间,传统上是通过直觉和反复试验来优化的,从而减慢了进度。在这里,我们介绍了深度强化学习在模拟材料合成问题中的应用,利用 Stein 变分策略梯度 (SVPG) 方法训练多个代理来优化随机策略以产生所需的功能特性。我们的贡献是 (1) 一个完全开源的分层材料合成问题模拟环境,利用动力学蒙特卡罗引擎并在 OpenAI Gym 框架中实现,(2) 扩展 Stein 变分策略梯度方法以处理图像和表格输入,以及 (3) 使用 Horovod 开发 SVPG 的并行(同步)实现,将多个代理分布在 GPU 和 CPU 上的单个模拟环境中。我们展示了这种方法在优化材料表面特性、表面粗糙度方面的实用性,并探索了与传统的演员-评论家 (A2C) 基线相比,代理使用的策略。此外,我们发现 SVPG 比传统的 A2C 更稳定训练过程。如果解决实施挑战,这种经过训练的代理可用于各种原子级沉积技术,包括脉冲激光沉积和分子束外延。
摘要:随着Alphago的突破,深入的强化学习已成为解决顺序决策问题的公认技术。尽管其声誉,但由于其试验和错误学习机制引起的数据效率低下,使得深层执行学习难以在广泛的领域应用。已经开发了许多用于样本有效的深层增强学习的方法,例如环境建模,经验转移和分布式修改,其中分布式深层掌握学习表明了其在各种应用中的潜力,例如人类计算机游戏和智能运输。在本文中,我们通过比较了经典的分布式深入强化学习方法并研究重要组成部分,以实现有效的分布式学习,从而涵盖了单个玩家单位分布的深度强化学习与最复杂的多个玩家分布深度强化学习。此外,我们回顾了重新发布的工具箱,这些工具箱有助于实现分布的深度强化学习,而无需对其非分发版本进行多次修改。通过分析其优势和劣势,开发和释放了多人多代理的多代理分布式深入强化学习工具箱,这在战争游戏中得到了进一步的验证,这是一个复杂的环境,显示了针对多个玩家的拟议工具盒的可用性,多个代理和多个代理在复杂的游戏下分配了深度强化学习。最后,我们试图指出挑战和未来的趋势,希望这份简短的评论可以为有兴趣分配深入强化学习感兴趣的研究人员提供指南或火花。
紧急管理计划(EMP)结合了“全危害方法”,并解决了对与自然,技术和人造事件/灾难相关的紧急情况的计划反应。EMP是在UH发生事件/灾难期间的学生,员工,教职员工和访客的健康,安全和财产的基础框架。旨在促进多个代理/管辖权协调;特别是在UH和地方,州,联邦政府,UH系统校园,其他高等教育机构,私营企业和合同伙伴之间。本计划正式纳入了整个或部分地纳入该计划中的组件中的国家事件管理系统(NIMS)的概念和过程,无论是休斯顿大学摄政委员会委派的休斯顿大学(UH)校长的权限。UH紧急响应计划基于NIMS,NIMS是美国的标准模型和事件命令系统(ICS),即UH的第一响应者使用的管理结构。
对自动驾驶汽车的抽象协作感知旨在克服个人感知的局限性。在多个代理之间共享信息,可以解决多个问题,例如遮挡,传感器范围限制和盲点。最大的挑战之一是在受到束缚绩效和沟通带宽之间找到正确的权衡。本文提出了一种新的合作感知管道,该管道基于Whate2Comm算法具有优化策略,以减少几种代理之间的传输数据量。这些策略涉及编码器部分中的数据减少模块,以有效地选择最重要的特征,并以V2X方式交换消息的新代表,该消息将考虑信息及其位置的向量而不是高维特征图。在两个模拟数据集(OPV2V和V2XSET)上评估我们的方法。数据集上的AP@50的准确性大约为7%,并且在V2XSET和OPV2V上分别降低了89.77%和92.19%。
在 HYBRIDGE 项目的 WP9 中,基于随机混合操作模型,对分布式 ATM 操作执行风险评估。在 WP9 的第二份报告中,解释了如何以 Petri 网的形式指定所选的 ATM 操作(称为自由飞行)。对于核工业和化学工业中的安全关键操作,Petri 网已被证明可用于适当事故风险评估模型的组成规范。对于空中交通运营,由于涉及的多个代理之间的高度分布和复杂交互,此类模型的开发更具挑战性。具体问题是:A) 由于添加与另一个低级 Petri 网的互连,低级 Petri 网的结构发生变化;B) 低级 Petri 网中的弧和转换重复;C) 互连混乱。本文针对这些问题中的每一个都制定了适当的解决方案。首先以图形方式解释解决方法,然后以形式方式解释。以空中交通运营示例说明所开发的方法。
“对于像纽约这样的老城市来说,这是一个难题,”拉贾说,“随着时间的推移,建筑材料会发生变化。”实验室的工作在很大程度上依赖于分布式人工智能,这是一种由多个代理(包括人类和环境)决定决策的方法。通过整合管道年龄、材料、位置和环境压力等各种数据点,她的团队编写的算法可以预测水管故障并确定维修计划的优先顺序。维修管道对于防止潜在的城市洪水至关重要,DAIR 团队正在研究使用多代理人工智能计算机模型模拟潜在洪水情景的算法,该模型可为应急响应和长期城市规划提供信息。利用公开数据并通过与纽约市立大学/纽约大学的 FloodNet 计划的潜在合作,该团队目前正在开发一个仪表板和智能手机应用程序,可在洪水期间提供实时更新,使居民和应急响应人员都受益。
多机构系统(MAS)在数量的现实世界中广泛普遍且至关重要,在这些应用程序中,多个代理必须在共享环境中做出决定才能实现其目标。尽管无处不在,但在MAS中的智能决策代理的发展对他们的有效实施构成了一些公开挑战。本次调查研究了这些挑战,对研究游戏理论(GT)和机器学习(ML)的开创性概念(ML)进行了兴趣,并将它们与多方面增强学习(MARL)的最新进步联系起来,即MAS中数据驱动决策的研究。因此,这项调查的目的是在MARL的各个方面提供一个全面的观点,从而阐明了MARL应用中呈现的独特机会,同时强调了这种潜力带来的固有挑战。因此,我们希望我们的工作不仅可以通过分析当前的MARL景观来为该领域做出贡献,还可以通过洞察力来激励未来的方向,以深入了解GT和ML相关领域的概念。考虑到这一点,这项工作深入探讨了MARL及其相关领域的最新和过去的努力,并描述了提出的先前解决方案及其局限性以及其应用。