摘要 在计算机视觉和机器人领域,具身代理有望探索其环境并执行人类的指令。 这就需要能够根据第一人称观察充分理解 3D 场景,并将其语境化为语言进行交互。 然而,传统研究更多地侧重于从全局视角进行场景级输入和输出设置。 为了解决这一差距,我们引入了 EmbodiedScan,这是一个多模态、以自我为中心的 3D 感知数据集和整体 3D 场景理解的基准。 它包含超过 5k 个扫描,封装了 1M 个以自我为中心的 RGB-D 视图、1M 个语言提示、160k 个 3D 导向框,涵盖 760 多个类别,其中一些与 LVIS 部分一致,以及具有 80 个常见类别的密集语义占用率。 基于这个数据库,我们引入了一个名为 Embodied Perceptron 的基线框架。它能够处理任意数量的多模态输入,并表现出卓越的 3D 感知能力,无论是在我们建立的两个系列基准测试(即基本 3D 感知任务和基于语言的任务)中,还是在野外。
对比语言图像预训练 (CLIP) 编码器已被证明对从分类和检测到字幕和图像处理等一系列视觉任务有益。我们研究了 CLIP 视觉主干对 Embodied AI 任务的有效性。我们构建了非常简单的基线,称为 EmbCLIP,没有任务特定的架构、归纳偏差(例如使用语义图)、训练期间的辅助任务或深度图——但我们发现我们改进的基线在一系列任务和模拟器中表现非常出色。EmbCLIP 在 RoboTHOR ObjectNav 排行榜上以 20 分(成功率)的巨大优势名列前茅。它在 iTHOR 1-Phase Rearrangement 排行榜上名列前茅,击败了采用主动神经映射的第二佳提交作品,并且 % Fixed Strict 指标增加了一倍多(0.08 到 0.17)。它还击败了 2021 年 Habitat ObjectNav 挑战赛的获胜者,该挑战赛采用了辅助任务、深度图和人工演示,以及 2019 年 Habitat PointNav 挑战赛的获胜者。我们评估了 CLIP 的视觉表示在捕获输入观察的语义信息方面的能力——这些原语对于导航繁重的具身任务很有用——并发现 CLIP 的表示比 ImageNet 预训练的主干更有效地编码了这些原语。最后,我们扩展了我们的一个基线,生成了一个能够进行零样本物体导航的代理,它可以导航到训练期间未用作目标的物体。我们的代码和模型可以在 https://github.com/allenai/embodied-clip 获得。
摘要:我们提出了 BEHAVIOR-1K,一个以人为本的机器人综合模拟基准。BEHAVIOR-1K 包括两个部分,分别由“您希望机器人为您做什么?”这一广泛调查的结果指导和推动。第一个部分是定义 1,000 种日常活动,基于 50 个场景(房屋、花园、餐厅、办公室等),其中有 5,000 多个对象,并标注了丰富的物理和语义属性。第二个部分是 O MNI G IBSON,这是一个新颖的模拟环境,它通过逼真的物理模拟和刚体、可变形体和液体的渲染来支持这些活动。我们的实验表明,BEHAVIOR-1K 中的活动是长期的并且依赖于复杂的操作技能,这两者对于最先进的机器人学习解决方案来说仍然是一个挑战。为了校准 BEHAVIOR-1K 的模拟与现实之间的差距,我们提供了一项初步研究,研究如何在模拟公寓中使用移动机械手学到的解决方案转移到现实世界中。我们希望 BEHAVIOR-1K 的人性化本质、多样性和现实性能够使其对具身化 AI 和机器人学习研究有价值。项目网站:https://behavior.stanford.edu。
根据具身理论(包括具身、嵌入、扩展、演绎、情境和扎根认知方法),语言表征与我们与周围世界的互动有着内在联系,这反映在语言处理和学习过程中的特定大脑特征中。从具身理论与非模态理论的原始竞争开始,这篇共识论文讨论了一系列精心挑选的问题,旨在确定运动和感知过程何时以及如何参与语言过程,而不是是否参与。我们的研究领域非常广泛,从具身语义的神经生理特征(例如事件相关电位和场以及神经振荡)到语义处理和语义启动对具体和抽象词的影响,到第一和第二语言学习,最后,使用虚拟现实来检查具身语义。我们的共同目标是更好地理解运动和感知过程在语言理解和学习所代表的语言表征中的作用。我们达成共识,基于该领域开展的开创性研究,未来的发展方向是通过承认具体和情境语言和语义过程的多模态性、多维性、灵活性和特质来提高研究结果的外部有效性。
图 2. Frak 等人(2001 年)使用的实验范例说明。上图为显性动作,参与者被要求用拇指和食指抓住一个装满水的圆柱形容器,将水倒入容器中。下图为隐性动作。左图:计算机显示器上容器(即圆盘)的示意图。圆盘上的两条小线表示在想象动作期间食指和拇指应放置的位置。右图:操纵对立轴从 -22° 到 +56°。
莱考夫和约翰逊的理论认为,隐喻不仅仅是语言手段,还代表了我们思维的结构方式。从这个角度来看,隐喻表明,我们的身体感知和与具体世界的互动是理解抽象概念的必要基础。例如,在结构隐喻中,一个抽象概念是通过另一个抽象概念进行隐喻构建的。一个典型的例子是隐喻“争论就是战争”,其中每一次分歧的动态都被描述成一场战斗,强调对抗中的对抗性而非合作性(莱考夫和约翰逊,2008 年)。这种隐喻思维模式简化了复杂的概念,使人们能够更直接地理解,但它也会限制对现实某些方面的感知。同时,我们用来简化抽象概念的隐喻深深地限制了我们的具身思维。方位隐喻对于具身理论尤为重要,因为它们将概念组与空间位置或运动联系起来,从而遵循我们物理世界的规则。同样,我们在幼儿时期具体学到的关于物理世界的知识类似于抽象概念。Lakoff 和 Johnson 举的一个例子是“快乐是向上,悲伤是向下”,它有物理基础。事实上,当我们沮丧时,我们的姿势会反映出来;当我们快乐时,我们会直立。通过本体论隐喻,我们将抽象概念当做对象来谈论。从本质上讲,根据 Lakoff 和 Johnson (2008) 的说法,隐喻是人类语言不可或缺的元素,也是我们思维具身性的证据。
我们提出了虚拟社区,一个旨在支持具身人工智能研究的社交世界模拟平台,具有源自现实世界的大规模社区场景。虚拟社区引入了两个关键特性,以生成人工智能来丰富虚拟社交世界:可扩展的 3D 场景创建,支持在任何位置和规模生成广阔的室内外环境,解决了具身人工智能研究缺乏大规模、交互式的开放世界场景的问题;具有扎实角色和社会关系网络的具身代理,这是第一个在社区层面模拟具有社交联系的代理,同时也具有基于场景的角色。我们设计了两个新颖的挑战来展示虚拟社区提供了试验平台来评估具身代理在开放世界场景中的社交推理和规划能力:路线规划和竞选活动。路线规划任务考察代理推理社区中的时间、位置和工具的能力,以便规划日常生活中快速、经济的通勤。竞选活动任务评估了代理作为社区新成员探索和与其他代理建立联系的能力。 。 我们对几个基线代理进行了这些挑战的评估,并展示了当前方法在解决开放世界场景中体现的社会挑战方面的性能差距,我们的模拟器旨在解决这些挑战。 我们计划开源这个模拟,并希望虚拟社区能够加速这个方向的发展。 我们鼓励读者在 https://sites.google.com/view/virtual-community-iclr 上查看我们的模拟演示。