海量数据集和大容量模型推动了计算机视觉和自然语言理解领域的许多最新进步。这项工作提供了一个平台,使具身人工智能能够取得类似的成功。我们提出了 P ROC THOR,一个用于程序化生成具身人工智能环境的框架。P ROC THOR 使我们能够对任意大的多样化、交互式、可定制和高性能虚拟环境数据集进行采样,以在导航、交互和操作任务中训练和评估具身代理。我们通过 10,000 个生成的房屋样本和一个简单的神经模型展示了 P ROC THOR 的强大功能和潜力。在 P ROC THOR 上仅使用 RGB 图像训练的模型,没有明确的映射,也没有人工任务监督,在 6 个用于导航、重新排列和手臂操作的具身人工智能基准测试中产生了最先进的结果,包括目前正在运行的 Habitat 2022、AI2-THOR Rearrangement 2022 和 RoboTHOR 挑战。我们还通过在 P ROC THOR 上进行预训练(无需在下游基准上进行微调)在这些基准上展示了强大的 0-shot 结果,通常击败了访问下游训练数据的以前最先进的系统。
主要关键词