2023:AI4ABM研讨会(V); NDA,波茨坦; Zef,波恩;波恩的可持续未来;伦敦合作社AI;伯克利·马尔研讨会(V); ECEM,莱比锡;可持续AI实验室,波恩; CESOC研讨会(V); Lamarr Institute(V);波恩的Tchumatchenko Group; Hasenauer Group,波恩2022:合作AI研讨会(V); Uni Leeds(V);暹罗生活科学迷你研讨会(V); MPI用于探测生物学; libre de bruxelles;非线性动力系统研讨会(V),阿姆斯特丹合作座谈会(V)的适应性;自适应和学习代理AAMAS研讨会(V);跨量表的集体学习ICLR研讨会(V);皇家学会集体知识会议(V)2021:Uni Leeds(V); uni t ubingnen(v); Uni Graz(V); Uni Konstanz(V);达特茅斯学院(V);荷兰新兴现象研究所(V);学习,进化与游戏(腿)会议(v); Comarl AAAI春季研讨会(V)
摘要。对智能车辆的轨迹进行建模是流量模拟系统的重要组成部分。但是,这种轨迹预定符通常受过训练,以模仿人类驾驶员的运动。模仿模型通常没有捕获数据分配长尾端的安全关键事件,尤其是在涉及多个驱动程序的综合环境下。在本文中,我们提出了一种游戏理论的观点,以通过对通用马尔可夫游戏中的车辆的竞争相互作用进行建模,并以相关的平衡来表征这些挑战的竞争。为了实现这一目标,我们为预测自动驾驶场景的环境动态的生成性世界模型提供了预算。基于这个世界模型,我们通过将乐观的Bellman更新和磁性镜下降纳入多代理增强学习(MARL)算法的目标函数来探测用于识别粗相关平衡(CCE)的动作预测因子。我们进行了广泛的实验,以证明我们的算法在有效地关闭CCE间隙并在竞争性自动驾驶环境下产生有意义的轨迹方面优于其他基准。该代码可在以下网址提供:https://github.com/qiaoguanren/marl-cce。
To lt't'I lilt' diu'r,ifil'd l'hallt'ilg"", oft,'n,d in lilt' Ij()~pilal, II I,.. 01/\ iuu- that IllI' b",t di~infl'dall! i,.. 1I1lt' that i~ adi,,' al!ailJ~t thl' 很棒""t nU1ll11I'1 III (lrg"III'IlI"', III ,'Ift'd, a di,..infl'dalll that "Irer, 11l1,..lti"" but ,aft"~ di,-inf,'dioll and "h~('hi, non, ",ll'di\,' in it, :Iblh\ 杀死tht~\\j.~It"'Lj!"[lr.lJl!.! v..CgU;;\,'li".!!!::, \\E~Ull)' '\E i,.. 'lH'h a dl,illft'dallt.11"'pit,d pn'lIllllt'l"lto aI'" 所有 LIIl!i1iar \\ith di,..inf,'dallt,.. u~illg "ht'nol~, d:lo ri III','d "llt'nol" "lid qua tntiil arnlllllnlUIIl ('0 TIl pound,. in tltei r (o\'lnUL,tloll art',d,o \ny Illuch,marl' of thl',..Iwrll'orninl!" of tht,,.e di,-婴儿。
21.1 Accessory Buildings XXI-1 21.2 Adult Entertainment XXI-1 21.3 Automobile and Scrap Metal Salvage Yards XXI-1 21.4 Cemetery XXI-2 21.5 Cluster Residential Option XXI-2 21.6 Development Regulations XXI-3 21.7 Discretionary Approval Conditions XXI-4 21.8 Drive-Through Facilities XXI-4 21.9 [Reserved for Future Use] XXI-5 21.10围栏XXI-5 21.11高尔夫球场和乡村俱乐部XXI-6 21.12家庭职业XXI-6 21.13 Hunt Club XXI-7 21.14土地部门XXI-7 21.15 21.15 [保留供未来使用] xxi-8 21.16照明,室外XXI-15 21.20牲畜拍卖码XXI-15 21.21加载和卸货(街上)XXI-15 21.22 21.22制造或现场建造的住宅不到16英尺(16)英尺宽xxi-16宽xxi-16 21.23 21.23制造的住房公园(租赁住房现场)xxi-16 21.16 21.16 21.16 21.24 [x.24] x24 [x7.16 21.24]砾石,沙子,粘土,顶部土壤,MARL XXI-17 21.26不合格XXI-23
本文提出了一种使用先进技术(例如贝叶斯优化(BO),遗传算法(GA)和加固学习(RL)等先进技术来优化军事行动的综合方法。该研究重点关注三个关键领域:防御行动中的单位处置,消防支持计划和下属单位的任务计划。对于单位处置,BO用于优化基于战场指标的营的位置,汤普森采样采集功能和周期内核可实现卓越的结果。在消防支持计划中,GA用于最大程度地减少威胁水平和发射时间,以有限的资源下解决资源受限的项目调度问题(RCPSP)。最后,开发了用于任务计划的RL模型,结合了多代理增强学习(MARL),图形注意网络(GAT)和分层增强学习(HRL)。RL模型通过模拟战场场景来展示其在产生战术操作方面的有效性。这种方法使军事决策者能够增强复杂环境中运营的适应性和效率。结果强调了这些优化技术支持军事指挥和控制系统在实现战术优势方面的潜力。
乘车共享公司等双面市场通常涉及一组主题,这些主题在跨时间和/或政策中做出顺序决策。随着智能手机和物联网的快速发展,它们实质上改变了人类的运输格局。在本文中,我们考虑了乘车共享公司中的大规模车队管理,这些公司涉及随着时间的推移,在不同领域接收产品序列(或治疗)的多个单位。在这些研究中出现了主要的技术挑战,例如政策评估,是因为(i)空间和时间代理会引起位置和时间之间的干扰; (ii)大量位置导致维度的诅咒。为了同时解决这两个挑战,我们引入了在这些研究中进行政策评估的多代理强化学习(MARL)框架。,我们提出了新的估计量,以确保不同产品下的平均结果,尽管州行动空间的高度差异很高。在模拟实验中提出的估计量有益。我们使用从双面覆盖的公司获得的实际数据集进一步进一步,以评估应用不同的补贴策略的效果。我们提出的方法的Python实现可在https://github.com/runzhestat/causalmarl上获得。
合作的多代理增强学习(MARL)需要在代理之间进行无缝的协作,通常以基本关系图来表示。现有学习该图的现有方法主要集中于代理关系关系,并具有高阶关系。虽然几种方法试图扩展合作模式以包含组内的行为相似性,但它们通常同时学习潜在图,从而在部分观察到的药物之间限制了信息交换。为了克服这些局限性,我们提出了一种新的方法来推断群体感知的坐标图(GACG),该方法旨在根据当前观察结果和群体级别的依赖性从跨轨迹观察到的行为模式来捕获代理对之间的合作。该图进一步用于图形卷积,以在决策过程中进行信息交换。为了进一步确保同一组中的代理人之间的行为一致性,我们引入了群体距离损失,该距离损失会产生群体的凝聚力并鼓励组之间的专业化。我们的评估是在Starcraft II微管理任务上进行的,是GACG的出色表现。一项消融研究进一步提供了我们方法每个组成部分有效性的实验证据。
在稀疏奖励任务中学习有效的策略是加强学习的基本挑战之一。这在多代理环境中变得极为困难,因为对多种代理的同意学习引起了非平稳性问题,并大幅增加了关节状态空间。现有作品试图通过经验共享来实现多代理的合作。但是,从大量共享经验中学习是不具备的,因为在稀疏的奖励任务中只有少数高价值状态,这可能会导致大型多区域系统中的维度诅咒。本文着重于稀疏的多项式合作任务,并提出了一种有效的体验共享方法,即MAST的选修课(MASL),以通过重新获得其他代理商的有价值的经验来促进样本良好的培训。MASL采用了一种基于倒退的选择方法来识别团队奖励的高价值痕迹,基于这些召回痕迹在代理之间生成并共享某些召回痕迹,以激发有效的外观。此外,MASL有选择地考虑来自其他代理商的信息,以应对非平稳性问题,同时为大型代理提供有效的培训。实验结果表明,与最先进的合作任务中的最先进的MARL Al-Al-gorithms相比,MASL显着提高了样本的效率。
近年来,人们对Utiz Liz Liz Liz Liz Liz Formenting学习(RL)的兴趣越来越高,以优化推荐系统中的长期奖励。由于工业推荐系统通常被设计为多阶段系统,因此同时优化多个阶段时,具有单个代理的RL方法会面临挑战。原因是不同阶段具有不同的观察空间,因此不能由单个代理建模。为了解决这个问题,我们提出了一种新型的基于单向执行的多代理增强学习(UNEX-RL)框架,以重新获得多阶段建议系统中的长期奖励。我们表明,单向执行是多阶段推荐系统的关键功能,为多机构增强学习(MARL)的应用带来了新的挑战,即观察依赖性和级联效应。为了应对这些挑战,我们提供了级联信息链(CIC)方法,以将依赖性观测值与动作依赖性观察结果分开,并使用CIC有效地训练UNEX-RL。我们还讨论了UNEX-RL的实际差异技术。fi-Nelly,我们显示了UNEX-RL对公共数据集和具有超过1亿用户的在线推荐系统的有效性。特别是,UNEX-RL揭示了用户使用时间的0.558%与单一AGENT RL算法相比,在线A/B实验中的使用时间为0.558%,强调了UNEX-RL在工业推荐系统中的效率。
摘要 - 社会智能表现出通常被称为心理理论(汤姆)的能力,以辨别他人的行为意图,信念和其他精神状态。汤姆在多代理和人机上的行动环境中尤其重要,因为每个代理都需要了解其他代理的心理状态,以便更好地做出响应,互动和协作。最近的研究表明,汤姆模型具有推断信仰,意图并预测未来的观察和行动的能力。尽管如此,它在解决复杂任务方面的部署仍然特别有限。当代理人数量增加时,挑战就会出现,环境变得更加复杂,并且与环境互动并预测彼此的精神状态变得困难和耗时。为了克服这种局限性,我们从集体思维理论(TOCM)机制中汲取灵感,将所有其他代理的观察结果预测到一个统一但多元的代表性中,并辨别我们自己的行为如何影响这种心理状态。基于这个基础,我们构建了一个富有想象力的空间来模拟多代理交互过程,从而提高了复杂决策环境中多个代理之间合作的效率。在具有不同数量的代理的各种合作任务中,实验结果强调了与多代理增强学习(MARL)基准相比,我们方法的优越效率和表现。我们对基于SNN和DNN的决策网络实现了一致的提升,并证明TOCM对他人心理状态的推论可以转移到新任务中,以快速,灵活地适应。