我们提出了一种现代的体现问题答案(EQA),这是理解环境足以以自然语言回答问题的任务。代理可以通过借鉴情节记忆来实现这种理解,就像在移动机器人的情况下一样,由代理商在智能眼镜上示例或积极探索环境。我们使用OpenEQA(用于EQA的第一个开放式基准基准数据集)伴随着我们的配方。OpenEQA包含超过180个现实环境提取的1600多个高质量的人类生成的问题。除了数据集外,我们还提供了一种自动LLM驱动的评估协议,该协议与人类判断具有良好的相关性。使用此数据集和评估协议,
我们提出了一种现代的体现问题回答(EQA)的表述,这是理解环境足以以自然语言回答问题的任务。代理可以通过借鉴情节记忆,用智能眼镜上的代理或积极探索环境来实现这种理解,就像移动机器人一样。我们使用OpenEQA伴随我们的配方,这是第一个用于EQA支持情节内存和主动探索用例的Open-Vocabulary基准数据集。OpenEQA包含超过180个现实环境提取的1600多个高质量的人类生成的问题。除了数据集外,我们还提供了一种自动LLM驱动的评估协议,该协议与人类判断力具有良好的相关性。使用此数据集和评估协议,我们评估了几种最先进的基础模型,例如GPT-4V,发现它们显着落后于人类水平的性能。因此,OpenEQA是一种直接,可衡量且实际相关的基准,对当前的AI模型构成了巨大挑战。我们希望这能在体现的AI,对话代理和世界模型的交集中启发和刺激未来的研究。