我们提出,具身人工智能 (E-AI) 是追求通用人工智能 (AGI) 的下一个基本步骤,并将其与当前的人工智能进步(尤其是大型语言模型 (LLM))进行比较。我们遍历了具身概念在不同领域(哲学、心理学、神经科学和机器人技术)的演变,以强调 E-AI 如何区别于传统的静态学习范式。通过扩大 E-AI 的范围,我们引入了一个基于认知架构的理论框架,强调感知、动作、记忆和学习是具身代理的基本组成部分。该框架与 Friston 的主动推理原则相一致,为 E-AI 开发提供了一种全面的方法。尽管人工智能领域取得了进展,但仍存在重大挑战,例如制定新颖的人工智能学习理论和创新先进硬件。我们的讨论为未来的 E-AI 研究奠定了基础指导方针。我们强调创建能够在现实环境中与人类和其他智能实体进行无缝通信、协作和共存的 E-AI 代理的重要性,我们的目标是引导 AI 社区应对多方面的挑战,并抓住 AGI 探索过程中的机遇。
具身智能 (EI) 是一个快速发展的领域,旨在解决有关机器智能本质的新想法。EI 模糊了人工智能和物理智能(分别为 AI 和 PI)之间的界限;它在系统的人工和自然组件之间创建了一个分散的界面。EI 旨在将自然生物中观察到的多模态和多尺度适应性融入机器中,从而为机器人技术提供一种全新的方法,让未来充满自主、有用和安全的机器。想象一个每台机器在形态和神经学上都是独一无二的世界。这样的技术将不受无意的意外(新环境)或有意的意外(对抗性攻击)的影响,因为没有两台机器会共享一个共同的致命弱点。想象一下,当机器一分为二时,会形成两个较小但不同的原始机器版本。想象一下,机器可以分解成独立组件群,并根据需要重新组合成一个物理整体。想象一下,在自主机器中,控制、驱动、感觉、通信、计算和动力之间没有明显的区别,这使得这些机器不受任何一个子系统完全失效的影响。这些机器可能还会包含生物和非生物组件,进一步结合生物和非生物世界的优点,模糊“我们”(人类)和“他们”(机器)之间的区别。
为什么要研究这个问题?从线虫到鱼类、啮齿动物和灵长类动物,进化一直都在实现我们尚未实现的目标,即能够灵活而稳健地与物理世界互动以确保其生存的具身代理。这种感觉运动回路是跨物种共享的智能的基础,我们更抽象的推理能力(包括语言)也依赖于此。然而,设计这种能力一直是人工智能(AI)面临的一项重大计算挑战,尤其是考虑到制造通用机器人一直是一个长期目标(但尚未实现)。尽管算法和数据集规模的进步使有效的表征学习成为可能[18],但当前的人工智能仍难以理解
情境化具身智能体如何利用知识实现目标是自然和人工智能的经典问题。生物体如何利用其神经系统实现这一目标是具身认知神经理论面临的核心挑战。为了构建这一挑战,我们借用了塞尔对意向性的分析中的术语,即其两个契合方向和六种心理模式(感知、记忆、信念、行动中的意图、先前意图、愿望)。我们假设意向状态由神经激活模式实例化,而神经激活模式由神经交互稳定。动态不稳定性为启动和终止意向状态提供了神经机制,对于组织意向状态序列至关重要。概念节点网络所表示的信念是自主学习的,并根据期望的结果被激活。意向智能体的神经动力学原理在一个玩具场景中得到演示,其中机器人智能体探索环境并根据学习到的颜色变换规则将物体涂成所需的颜色。
认知架构与生成模型是实现一般具身智能的两种截然不同的方法,本文探讨两者的初衷、实现方式和优缺点,旨在将其融合为一般具身智能,以发挥其优势,补足其弱点。首先,通过分析两者不同的应用场景和进一步研发的难点,探索两者之间的潜在协同作用和可能的整合策略。然后,通过结合认知架构(模拟类人认知过程)和生成模型(擅长根据学习模式生成新内容)的优势,实现创建具有增强整体能力的具身智能的目标。最后,本文结合示例,提出了一个综合框架,展示了如何集成认知架构、生成模型和其他人工智能方法以实现一般具身智能。
根据具身理论(包括具身、嵌入、扩展、演绎、情境和扎根认知方法),语言表征与我们与周围世界的互动有着内在联系,这反映在语言处理和学习过程中的特定大脑特征中。这篇共识论文从具身理论与非模态理论的原始竞争出发,探讨了一系列精心挑选的问题,旨在确定运动和感知过程何时以及如何参与语言过程,而不是是否参与。我们的研究领域非常广泛,从具身语义的神经生理特征(例如事件相关电位和场以及神经振荡)到语义处理和语义启动对具体和抽象词的影响,再到第一和第二语言学习,最后,使用虚拟现实来检查具身语义。我们的共同目标是更好地理解运动和感知过程在语言理解和学习所代表的语言表征中的作用。我们达成共识,基于该领域开展的开创性研究,未来的发展方向是通过承认具体和情境语言和语义过程的多模态性、多维性、灵活性和特质来提高研究结果的外部有效性。
语言处理受感觉运动体验的影响。在这里,我们回顾了语言处理中体现和扎根影响的行为证据,这些影响涵盖六个语言粒度级别。我们研究 (a) 子词特征,讨论扎根对图像性(词形和含义之间的系统关联)的影响;(b) 单词,讨论模拟颜色、感觉模态和空间位置的边界条件和概括;(c) 句子,讨论动作方向模拟的边界条件和应用;(d) 文本,讨论模拟教学如何提高初学者的理解力;(e) 对话,讨论多模态线索如何改善轮流和对齐;(f) 文本语料库,讨论分布式语义模型如何揭示扎根和体现知识在文本中的编码方式。这些方法正在汇聚成令人信服的语言心理学解释,但与此同时,对体现方法和特定实验范式也提出了重要的批评。最可靠的前进之路需要采用多种科学方法。通过提供互补证据,结合不同粒度级别的多种方法可以帮助我们更全面地了解语言处理中体现和基础的作用。
提前获取陌生地方的无障碍信息对于轮椅使用者更好地决定是否进行实地访问至关重要。如今的评估方法,例如电话、照片/视频或 360 度虚拟游览,往往无法提供针对个体差异所需的具体无障碍细节。例如,它们可能无法透露关键信息,例如桌子下面的腿部空间是否足够宽敞,或者设备的空间配置是否方便轮椅使用者使用。针对这一问题,我们提出了 Embodied Exploration,这是一种虚拟现实 (VR) 技术,可提供实地访问的体验,同时保持远程评估的便利性。Embodied Exploration 允许轮椅使用者利用越来越便宜的 VR 耳机,以化身的形式探索物理环境的高保真数字复制品。通过初步的探索性研究,我们调查了需求并不断改进我们的技术。通过对六名轮椅使用者进行真实世界用户研究,我们发现 Embodied Exploration 能够促进远程和准确的无障碍评估。我们还讨论了设计对具体化、安全性和实用性的影响。
海量数据集和大容量模型推动了计算机视觉和自然语言理解领域的许多最新进步。这项工作提供了一个平台,使具身人工智能能够取得类似的成功。我们提出了 P ROC THOR,一个用于程序化生成具身人工智能环境的框架。P ROC THOR 使我们能够对任意大的多样化、交互式、可定制和高性能虚拟环境数据集进行采样,以在导航、交互和操作任务中训练和评估具身代理。我们通过 10,000 个生成的房屋样本和一个简单的神经模型展示了 P ROC THOR 的强大功能和潜力。在 P ROC THOR 上仅使用 RGB 图像训练的模型,没有明确的映射,也没有人工任务监督,在 6 个用于导航、重新排列和手臂操作的具身人工智能基准测试中产生了最先进的结果,包括目前正在运行的 Habitat 2022、AI2-THOR Rearrangement 2022 和 RoboTHOR 挑战。我们还通过在 P ROC THOR 上进行预训练(无需在下游基准上进行微调)在这些基准上展示了强大的 0-shot 结果,通常击败了访问下游训练数据的以前最先进的系统。
摘要 这篇简短的文章考察了在更广泛的具身认知背景下,神经科学和哲学理解情绪和认知过程的基本参数。更详细地说,讨论遵循一系列研究领域,通过回答基本问题来构建,即:A)身心二元论对日常生活的影响,B)情商视角下的可能首选视角(PPP),C)模拟理论与理论理论 D)神经心理学配对缺陷与生理研究 E)社交距离对识别和理解情绪能力的影响 F)结论 关键词:神经科学、哲学、心理学、精神病学、心理治疗、情绪、认知、感知 通讯作者 David Tomasi,佛蒙特州立学院/佛蒙特社区学院(CCV),美国佛蒙特州威努斯基。电子邮件:david.tomasi@ccv.edu