摘要。关于人类思维在多大程度上控制着人体,反之亦然,一直存在着争论。今天,这场争论仍然激发着科学界的强烈愿望,希望加深我们对人类和动物智能、适应性行为本质的理解。为了进一步了解智力,探索我们的大脑和身体如何通过与世界的物理互动而发展,具身智能将人体的物理实体置于这一主题的中心。在人工智能和机器学习时代,具身智能研究仍然非常重要,因为它可以提供有价值的输入,从而增强传统人工智能技术的影响力。具身智能为当前的人工智能技术提供了潜在的解决方案,这些技术依赖于大量数据和可靠的输出,而这些输出依赖于不确定的、非结构化的任务和与人类用户(无论是个人还是社区)密切相关的情况。在下一章中,我们将讨论这个跨学科社区的当前趋势和方向,以及未来的挑战和机遇。
我们提出,具身人工智能 (E-AI) 是追求通用人工智能 (AGI) 的下一个基本步骤,并将其与当前的人工智能进步(尤其是大型语言模型 (LLM))进行比较。我们遍历了具身概念在不同领域(哲学、心理学、神经科学和机器人技术)的演变,以强调 E-AI 如何区别于传统的静态学习范式。通过扩大 E-AI 的范围,我们引入了一个基于认知架构的理论框架,强调感知、动作、记忆和学习是具身代理的基本组成部分。该框架与 Friston 的主动推理原则相一致,为 E-AI 开发提供了一种全面的方法。尽管人工智能领域取得了进展,但仍存在重大挑战,例如制定新颖的人工智能学习理论和创新先进硬件。我们的讨论为未来的 E-AI 研究奠定了基础指导方针。我们强调创建能够在现实环境中与人类和其他智能实体进行无缝通信、协作和共存的 E-AI 代理的重要性,我们的目标是引导 AI 社区应对多方面的挑战,并抓住 AGI 探索过程中的机遇。
本文的主要目的是全面概述和分析物质制品与具身心智之间的各种关系。本文的第二个目标是确定制品设计和使用中的一些趋势。首先,根据其功能特性,我确定了具身心智所采用的四类制品,即 (a) 具身制品、(b) 感知制品、(c) 认知制品和 (d) 情感制品。这些类别可以重叠,因此一些制品属于多个类别。我还确定了我们在与制品交互时使用的一些技术(或技能)。确定这些制品和技术类别使我们能够绘制出具身心智与制品世界之间关系的图景。其次,在确定了人工制品和技术的类别之后,本文概述了人工制品设计和使用的一些趋势,重点关注神经假体、脑机接口和个性化算法,引导用户走向特定的信息消费认知路径。
我们提出了虚拟社区,一个旨在支持具身人工智能研究的社交世界模拟平台,具有源自现实世界的大规模社区场景。虚拟社区引入了两个关键特性,以生成人工智能来丰富虚拟社交世界:可扩展的 3D 场景创建,支持在任何位置和规模生成广阔的室内外环境,解决了具身人工智能研究缺乏大规模、交互式的开放世界场景的问题;具有扎实角色和社会关系网络的具身代理,这是第一个在社区层面模拟具有社交联系的代理,同时也具有基于场景的角色。我们设计了两个新颖的挑战来展示虚拟社区提供了试验平台来评估具身代理在开放世界场景中的社交推理和规划能力:路线规划和竞选活动。路线规划任务考察代理推理社区中的时间、位置和工具的能力,以便规划日常生活中快速、经济的通勤。竞选活动任务评估了代理作为社区新成员探索和与其他代理建立联系的能力。 。 我们对几个基线代理进行了这些挑战的评估,并展示了当前方法在解决开放世界场景中体现的社会挑战方面的性能差距,我们的模拟器旨在解决这些挑战。 我们计划开源这个模拟,并希望虚拟社区能够加速这个方向的发展。 我们鼓励读者在 https://sites.google.com/view/virtual-community-iclr 上查看我们的模拟演示。
具身智能 (EI) 是一个快速发展的领域,旨在解决有关机器智能本质的新想法。EI 模糊了人工智能和物理智能(分别为 AI 和 PI)之间的界限;它在系统的人工和自然组件之间创建了一个分散的界面。EI 旨在将自然生物中观察到的多模态和多尺度适应性融入机器中,从而为机器人技术提供一种全新的方法,让未来充满自主、有用和安全的机器。想象一个每台机器在形态和神经学上都是独一无二的世界。这样的技术将不受无意的意外(新环境)或有意的意外(对抗性攻击)的影响,因为没有两台机器会共享一个共同的致命弱点。想象一下,当机器一分为二时,会形成两个较小但不同的原始机器版本。想象一下,机器可以分解成独立组件群,并根据需要重新组合成一个物理整体。想象一下,在自主机器中,控制、驱动、感觉、通信、计算和动力之间没有明显的区别,这使得这些机器不受任何一个子系统完全失效的影响。这些机器可能还会包含生物和非生物组件,进一步结合生物和非生物世界的优点,模糊“我们”(人类)和“他们”(机器)之间的区别。
海量数据集和大容量模型推动了计算机视觉和自然语言理解领域的许多最新进步。这项工作提供了一个平台,使具身人工智能能够取得类似的成功。我们提出了 P ROC THOR,一个用于程序化生成具身人工智能环境的框架。P ROC THOR 使我们能够对任意大的多样化、交互式、可定制和高性能虚拟环境数据集进行采样,以在导航、交互和操作任务中训练和评估具身代理。我们通过 10,000 个生成的房屋样本和一个简单的神经模型展示了 P ROC THOR 的强大功能和潜力。在 P ROC THOR 上仅使用 RGB 图像训练的模型,没有明确的映射,也没有人工任务监督,在 6 个用于导航、重新排列和手臂操作的具身人工智能基准测试中产生了最先进的结果,包括目前正在运行的 Habitat 2022、AI2-THOR Rearrangement 2022 和 RoboTHOR 挑战。我们还通过在 P ROC THOR 上进行预训练(无需在下游基准上进行微调)在这些基准上展示了强大的 0-shot 结果,通常击败了访问下游训练数据的以前最先进的系统。
根据具身理论(包括具身、嵌入、扩展、演绎、情境和扎根认知方法),语言表征与我们与周围世界的互动有着内在联系,这反映在语言处理和学习过程中的特定大脑特征中。这篇共识论文从具身理论与非模态理论的原始竞争出发,探讨了一系列精心挑选的问题,旨在确定运动和感知过程何时以及如何参与语言过程,而不是是否参与。我们的研究领域非常广泛,从具身语义的神经生理特征(例如事件相关电位和场以及神经振荡)到语义处理和语义启动对具体和抽象词的影响,再到第一和第二语言学习,最后,使用虚拟现实来检查具身语义。我们的共同目标是更好地理解运动和感知过程在语言理解和学习所代表的语言表征中的作用。我们达成共识,基于该领域开展的开创性研究,未来的发展方向是通过承认具体和情境语言和语义过程的多模态性、多维性、灵活性和特质来提高研究结果的外部有效性。
根据具身理论(包括具身、嵌入、扩展、演绎、情境和扎根认知方法),语言表征与我们与周围世界的互动有着内在联系,这反映在语言处理和学习过程中的特定大脑特征中。从具身理论与非模态理论的原始竞争开始,这篇共识论文讨论了一系列精心挑选的问题,旨在确定运动和感知过程何时以及如何参与语言过程,而不是是否参与。我们的研究领域非常广泛,从具身语义的神经生理特征(例如事件相关电位和场以及神经振荡)到语义处理和语义启动对具体和抽象词的影响,到第一和第二语言学习,最后,使用虚拟现实来检查具身语义。我们的共同目标是更好地理解运动和感知过程在语言理解和学习所代表的语言表征中的作用。我们达成共识,基于该领域开展的开创性研究,未来的发展方向是通过承认具体和情境语言和语义过程的多模态性、多维性、灵活性和特质来提高研究结果的外部有效性。
语言处理受感觉运动体验的影响。在这里,我们回顾了语言处理中体现和扎根影响的行为证据,这些影响涵盖六个语言粒度级别。我们研究 (a) 子词特征,讨论扎根对图像性(词形和含义之间的系统关联)的影响;(b) 单词,讨论模拟颜色、感觉模态和空间位置的边界条件和概括;(c) 句子,讨论动作方向模拟的边界条件和应用;(d) 文本,讨论模拟教学如何提高初学者的理解力;(e) 对话,讨论多模态线索如何改善轮流和对齐;(f) 文本语料库,讨论分布式语义模型如何揭示扎根和体现知识在文本中的编码方式。这些方法正在汇聚成令人信服的语言心理学解释,但与此同时,对体现方法和特定实验范式也提出了重要的批评。最可靠的前进之路需要采用多种科学方法。通过提供互补证据,结合不同粒度级别的多种方法可以帮助我们更全面地了解语言处理中体现和基础的作用。