基金会模型表现出了显着的紧急能力,对构成体现的代理商的推理和计划能力持巨大希望。然而,缺乏用于评估复杂环境中具有多模式观测的体现药物的基准,仍然是一个显着的差距。在本文中,我们提出了MUEP,这是一种用于e mbodied p lanning的全面MU ltimodal基准。MUEP促进了在复杂场景中体现药物的多模式和多转弯相互作用的评估,并结合了精细粒度的评估指标,这些指标可为您在整个任务中提供有关体现剂的性能的见解。此外,我们在拟议的基准上评估了具有最新的基础模型,包括大型语言模型(LLMS)和大型多模型模型(LMMS)。实验结果表明,基于环境的文本代表的基础模型通常超过其视觉效果,这表明具有多模式观察的型号计划能力存在差距。我们还发现,控制语言的生成是不可或缺的能力,超出常识性知识,无法进行准确的体现任务完成。我们希望拟议的MUEP基准可以为体现AI的进步与基础模型的发展。
主要关键词