摘要 - 我们提出了Mbappe,这是一种新型的运动计划方法,用于自动驾驶,将树搜索与部分学习的环境模型相结合。利用蒙特 - 卡洛搜索树(MCT)固有的可解释的探索和优化功能,我们的方法在动态环境中构成复杂的决策。我们提出了一个将MCT与监督学习相结合的框架,使自动驾驶汽车能够有效地浏览各种情况。实验结果证明了我们方法的有效性和适应性,展示了改进的实时决策和避免碰撞。本文通过为自动驾驶系统中的运动计划提供了强大的解决方案,从而为该领域做出了贡献,并具有解释性和可靠性。代码可用https://github.com/raphychek/mbappe-nuplan。
随着人工智能的不断进步,应用程序希望 AI 能够像人类一样出色地执行任务,甚至比人类更好。测试理论应用的一个好方法是通过简单到复杂的游戏。过去几年,人工智能模型已用于实时战略游戏,但它们的实现仍处于初级阶段,还有许多工作要做。研究问题是蒙特卡罗(当今世界一种著名的算法)如何得到改进,无论是在一般情况下还是在实时战略游戏的背景下。实施实验设计是主要的研究方法。之所以选择这种技术,是因为它提供了与未探索的想法进行对比的最清晰的框架。研究问题围绕改进蒙特卡罗方法展开,特别是在 MicroRTS(一种流行的 AI 算法测试环境)中。由于研究的目标是增强用于战略游戏的蒙特卡罗树搜索 (MCTS) 算法,因此将对传统的 MCTS 实现(MCTS Greedy 和 MCTS UCB)和独特的建议 MCTS(MCTS UCB+)进行比较。比较分析是通过在 RTS 环境中对每种算法的性能进行基准测试,并根据几个标准比较结果来完成的。研究发现,通过改变采样和选择方法以及对游戏状态的理解,新算法 MCTS UCB+ 能够在 MicroRTS 的部分可观察游戏模式下超越其前辈。
动态环境中的抽象运动计划是一项具有挑战性的机器人任务,需要避免碰撞和实时计算。最新的在线方法作为速度障碍(VO)保证安全的本地计划,而基于强化学习或图形离散化的全球计划方法在计算上效率低下或不可证明是碰撞的安全性。在本文中,我们将蒙特卡洛树搜索(MCT)与VO结合起来,以修剪不安全的动作(即相撞速度)。以这种方式,即使在非常大的动作空间(60个动作)中,我们可以进行极少的MCT模拟计划,比使用许多模拟的纯MCT获得更高的累积奖励和更低的计算时间。此外,由于与VO的动作修剪,我们的方法可以保证避免碰撞,而纯MCT则没有。在本文中铺平了在实际机器人和多代理分散运动计划上计划MCT计划的道路。
当细胞受到低 LET 辐射(60 Co 约为 0.3 keV/µm)时,大多数 DNA 损伤不是由辐射场与 DNA 的直接相互作用引起的,而是由辐解后的化学反应引起的。因此,辐射化学对于理解电离辐射造成的生物损伤的潜在机制至关重要。蒙特卡洛径迹结构 (MCTS) 代码可以详细模拟细胞等介质中的粒子径迹。几种 MCTS 代码已经进一步开发,具有模拟水的辐解和随后的非均相化学的能力。最初的 MCTS 模拟使用纯水作为目标,并叠加 DNA 几何形状来表征物理相互作用(Charlton 1986)。现在,MCTS 代码已经变得更加复杂,可以将电离辐射的物理化学过程与 DNA 几何模型相结合。
摘要 订单策略的协调对供应链库存管理构成了巨大挑战,因为各种随机因素增加了其复杂性。因此,确定最小化总库存成本的策略的分析方法仅在有限的范围内适用。相反,我们采用人工智能 (AI) 领域的启发式方法,即蒙特卡洛树搜索 (MCTS)。据我们所知,MCTS 既未应用于供应链库存管理,也未在运筹学的其他分支中广泛传播。我们开发了一个离线模型和一个基于实时数据决策的在线模型。为了演示目的,我们考虑一个类似于经典啤酒游戏的供应链结构,该结构有四个参与者,需求和交货时间都是随机的。我们证明离线和在线 MCTS 模型都比其他以前采用的基于 AI 的方法表现更好。此外,我们提供证据表明,由 MCTS 确定的动态订单策略消除了牛鞭效应。
摘要 订单策略的协调对供应链库存管理构成了巨大挑战,因为各种随机因素增加了其复杂性。因此,确定最小化总库存成本的策略的分析方法仅在有限的范围内适用。相反,我们采用人工智能 (AI) 领域的启发式方法,即蒙特卡洛树搜索 (MCTS)。据我们所知,MCTS 既未应用于供应链库存管理,也未在运筹学的其他分支中广泛传播。我们开发了一个离线模型和一个基于实时数据决策的在线模型。为了演示目的,我们考虑一个类似于经典啤酒游戏的供应链结构,该结构有四个参与者,需求和交货时间都是随机的。我们证明离线和在线 MCTS 模型都比其他以前采用的基于 AI 的方法表现更好。此外,我们提供证据表明,由 MCTS 确定的动态订单策略消除了牛鞭效应。
摘要 - 自主驾驶中有效的决策依赖于其他交通代理的未来行为的准确推断。为了实现这一目标,我们提出了一个基于在线信念的行为预测模型,也提出了一个有效可观察到的马尔可夫决策过程(POMDP)的有效计划者。我们开发了一个基于变压器的预测模型,通过复发性神经记忆模型增强,以动态更新潜在信念状态并推断其他代理的意图。该模型还可以整合自我车辆的意图,以反映代理之间的闭环交互,并从离线数据和在线交互中学习。为了计划,我们采用了一个具有宏观动作的蒙特卡洛树搜索(MCT)计划者,从而通过搜索时间扩展的动作步骤来降低计算复杂性。在MCTS计划者中,我们使用预测的长期多模式轨迹来近似未来的更新,从而消除了迭代信念的更新和提高跑步效率。我们的方法还将深度Q学习(DQN)作为搜索事务,从而大大提高了MCTS计划者的性能。模拟环境的实验结果验证了我们提出的方法的有效性。在线信念更新模型可以显着提高预测的准确性和时间一致性,从而改善决策绩效。在MCT计划中,采用DQN作为搜索,大大提高了其性能,并优于基于模仿学习的先验。此外,我们表明,具有宏观动作的MCT计划在性能和效率方面大大优于香草方法。
本文介绍了一种用于预测人类玩家行为和体验的自动游戏测试新方法。我们之前已经证明,深度强化学习 (DRL) 游戏代理可以预测游戏难度和玩家参与度,并将其操作化为平均通过率和流失率。我们通过使用蒙特卡洛树搜索 (MCTS) 增强 DRL 来改进这种方法。我们还基于以下观察激发了一种增强的预测特征选择策略:AI 代理的最佳表现可以产生比代理平均表现更强的与人类数据的相关性。这两种添加方式都可以持续提高预测准确性,并且 DRL 增强型 MCTS 在最难的级别上的表现优于 DRL 和原始 MCTS。我们得出结论,通过自动游戏测试进行玩家建模可以从结合 DRL 和 MCTS 中受益。此外,如果 AI 游戏玩法平均而言无法产生良好的预测,那么研究重复的最佳 AI 代理运行的子集也是值得的。
1. 根据 2022 年 11 月的估计,DBHDS;包括总共 90 个 MCT,其中 40% 配备了工作人员 2. 根据危机资源需求计算器的估计,基于以下假设:A. 平均每 100,000 人口有 230 次危机事件需要现场响应 B. 全国平均州长度、占用率和利用率 C. 初始分诊率为 32% 转至移动危机团队 (MCT)、54% 转至危机接收设施 (CRF)、14% 转至 ED D. 从 MCT 到 CRF 的转诊率为 30%,从危机接收设施到短期危机病床的转诊率为 35%,从短期危机病床到住院护理的转诊率为 25%,从 ED 到住院护理的转诊率为 100% E. 根据亚利桑那州 2014 年实施的危机系统 资料来源:危机资源需求计算器;DBHDS
Monte Carlo Tree Search(MCTS)是一种随机计划算法,可以为两人游戏中的动作提供建议,而无需启发式启发式。在这项工作中,我们描述了一种量子算法,以加快在执行多个此类推出的MCT变体中执行的随机“随机推出”步骤。引入了另一种量子算法,该算法加快了MCTS实例集合的计算。作为开发的技术的推论,提出了一种量子算法,用于估算任意(随机)长度的保单引导在任意(随机)环境中的期望值或最大化的第一步。此步行是由初始状态,策略函数和过渡功能定义的,其值通过在所采用的完整路径上定义的任意评估功能分配给了这样的walk。相对于最著名的经典算法,发现的所有加速度都是二次的。