对象导航(ObjectNav)要求代理在看不见的环境中导航以找到查询对象。许多以前的方法试图通过依靠经过跨越或强化学习来解决此任务,在该学习中,它们在具有近距离对象的有限家庭数据集上进行了培训。然而,尚未解决两个主要挑战:了解自由形式的自然语言指令,要求开放式观察,并以零拍的方式推广到新环境。旨在解决这两个挑战,在本文中,我们提出了OpenFM- NAV,这是一个基于零照射对象导航的基于odel m ODEL M ODEL的框架。我们首先释放了大型语言模型(LLMS)的推理能力,以从满足用户需求的自然语言指令中提取拟议的观察。然后,我们利用大型视觉语言模型(VLM)的普遍性来积极地从场景中发现和脱离候选对象,建立多功能语义得分图(VSSM)。然后,通过对VSSM进行常识推理,我们的方法可以对场景进行有效的语言引导探索和剥削,并最终达到目标。通过利用基础模型的推理和概括,我们的方法可以理解自由形式的人类指示并在不同环境中进行有效的开放式零射门导航。在HM3D ObjectNAV基准上进行的广泛实验表明,我们的方法超过了所有指标上的所有强基础,证明了我们方法的有效性。1此外,我们执行真实的机器人演示,以验证我们方法对现实环境的开放定点性和普遍性。
具有学习能力是一种结果,雨果奖得主 Ted Chiang 在他的故事“软件对象的生命周期”中很好地描述了这一点。这可能符合不少人工智能研究人员的希望。作为一个优越的实体——优越于我们,因为它比人类具有更少的认知限制,可以获得更多的知识和更好的推理能力。这个想法可能会吓到人们,因为他们担心这样的人工智能对人类没有“同理心”。为了控制人工智能,我们希望“理解”它的工作原理,并在我们不同意其操作原则时改变它,这也是我们对可解释和负责任的人工智能感兴趣的原因之一。这是设计周期中的一个重要部分,有助于按照我们想要的方式开发系统。但如果将人类和人工智能视为对立面,这可能无法充分体现两者实力的具体情况。1972 年,Michie (pp.332) 写道:“当代国际象棋程序的‘蛮力’能力带来了一种有趣的可能性,那就是引入一种新的‘咨询象棋’,其中合作方是人与机器。人类玩家将使用该程序对自己直觉选择的变体进行广泛而棘手的前向分析……”。为了应对社会和科学中越来越复杂和越来越多的挑战,我们需要人类和人工智能之间建立这种合作伙伴关系。我们现在需要评估人类和人工智能可以做得更好的事情,并专注于此,以免浪费宝贵的资源。例如,在需要道德考虑和同理心的情况下,大多数人更喜欢人类做出决定。我们希望人类能够考虑案例的具体情况,富有同情心,而不仅仅是应用“一般规则”。在常识推理方面,人类仍然优于人工智能系统。一方面,我们的人类直觉(见上文)通常被视为典型的人类直觉,但另一方面,可能只是在处理数百个类似的例子并根据它们做出假设的基础上形成的。还有许多其他特征需要考虑,但它们都回到了哲学和心理学问题:是什么定义了我们作为人类?需要在人工智能和心理学的交叉点进行更多研究,以确定和比较人类和人工系统的潜力——避免“社会心理责任分散”。我们需要评估我们拥有什么以及人工智能系统最有潜力做什么,以便合作应对未来的新挑战。
预测行人行为是确保自动驾驶汽车安全性和可靠性的关键。尽管通过从注释的视频框架序列中学习深入学习方法,但他们通常无法完全掌握行人与交通之间的动态相互作用,但可以进行准确的预测。这些模型也缺乏细微的常识推理。此外,这些模型的数据集的手动注释既昂贵又挑战,以适应新情况。视觉语言模型(VLM)的出现,由于其先进的视觉和因果推理技能,引入了这些问题的有希望的替代方案。据我们所知,这项研究是第一个在自主驱动的行人行为预测的概述中对VLM进行定量和定性评估的研究。 我们在公开可用的Pedes-Trian数据集上评估GPT-4V(ISION):JAAD和Wideview。 我们的定量分析重点是GPT-4V预测当前和未来帧中行人行为的能力。 该模型以零拍的方式达到了57%的精度,尽管令人印象深刻,但仍落后于最新的域特异性模型(70%),以预测行人交叉行动。 定性,GPT-4V表现出令人印象深刻的处理和解释综合交通情况,区分各种脚步行为以及检测和分析组的能力。 但是,它面临着挑战,例如难以检测较小的脚步 - 评估行人与自我车辆之间的相对运动。据我们所知,这项研究是第一个在自主驱动的行人行为预测的概述中对VLM进行定量和定性评估的研究。我们在公开可用的Pedes-Trian数据集上评估GPT-4V(ISION):JAAD和Wideview。我们的定量分析重点是GPT-4V预测当前和未来帧中行人行为的能力。该模型以零拍的方式达到了57%的精度,尽管令人印象深刻,但仍落后于最新的域特异性模型(70%),以预测行人交叉行动。定性,GPT-4V表现出令人印象深刻的处理和解释综合交通情况,区分各种脚步行为以及检测和分析组的能力。但是,它面临着挑战,例如难以检测较小的脚步 - 评估行人与自我车辆之间的相对运动。