在将AI代理部署到现实世界环境中之前,仍存在许多挑战。但是,这种环境的一种优点是它们本质上是多代理,并且包含经验丰富的专家(如人类),这些专家表现出有用的行为。这种行为可以帮助AI代理一般性化并应用于新的用例和方案。尽管这种社会学习能力可以改善概括和人类的互动,但由于缺乏开放式多机构环境,目前很难研究。在这项工作中,我们提出了一个环境,其中多个自私的代理可以追求复杂的独立目标。我们开发了Craftax基准的第一个多代理版本。基于JAX的Craftax-Classic环境,该扩展名支持有效的加速器多代理培训1。我们的实验表明,在NVIDIA T4 GPU上使用4 Agent LSTM模型可以在大约一小时内完成1亿个步骤。这种环境将使研究能够在开放式的多代理环境中提高AI代理的社会学习能力,从而通过观察其他代理来更好地概括并更快地学习。
主要关键词