多机构学习算法已经成功地在各种游戏中生成超人计划,但对部署的多代理计划者的设计影响有限。将这些技术应用于多代理计划的关键瓶颈是它们需要数十亿个经验步骤。为了启用大规模的多代理计划研究,我们提出了Gpudrive。gpudrive是一种gpu加速的多代理模拟器,构建在Madrona游戏引擎顶部,能够每秒产生超过一百万个模拟步骤。的访问,奖励和动态功能直接写在C ++中,允许用户定义降低到高性能CUDA的复杂的,异质的代理行为。尽管进行了这些低级优化,但通过Python可以完全访问Gpudrive,为多代理,闭环模拟提供了无缝且有效的工作流程。使用Gpudrive,我们在Waymo Open Motion数据集上训练加固学习剂,在几分钟内实现有效的目标,并在数小时内扩展到数千个场景。我们在
主要关键词