我们提出了虚拟社区,一个旨在支持具身人工智能研究的社交世界模拟平台,具有源自现实世界的大规模社区场景。虚拟社区引入了两个关键特性,以生成人工智能来丰富虚拟社交世界:可扩展的 3D 场景创建,支持在任何位置和规模生成广阔的室内外环境,解决了具身人工智能研究缺乏大规模、交互式的开放世界场景的问题;具有扎实角色和社会关系网络的具身代理,这是第一个在社区层面模拟具有社交联系的代理,同时也具有基于场景的角色。我们设计了两个新颖的挑战来展示虚拟社区提供了试验平台来评估具身代理在开放世界场景中的社交推理和规划能力:路线规划和竞选活动。路线规划任务考察代理推理社区中的时间、位置和工具的能力,以便规划日常生活中快速、经济的通勤。竞选活动任务评估了代理作为社区新成员探索和与其他代理建立联系的能力。 。 我们对几个基线代理进行了这些挑战的评估,并展示了当前方法在解决开放世界场景中体现的社会挑战方面的性能差距,我们的模拟器旨在解决这些挑战。 我们计划开源这个模拟,并希望虚拟社区能够加速这个方向的发展。 我们鼓励读者在 https://sites.google.com/view/virtual-community-iclr 上查看我们的模拟演示。
读者可能会对术语 DMDB(专用主、专用保护)的缺失感到好奇。我们第一次听到这个术语是在 2016 年新墨西哥州阿尔伯克基举行的 ITRS 上。介绍该术语的作者没有提供定义。术语 DMDB 也用于 2016 年 EMBC 报告中,但同样没有提供具体定义。使用专用一词意味着绳索救援系统中的停滞(即专门分配给或用于特定服务或目的)。十多年来,许多绳索救援队一直在通过在初始边缘过渡后向保护线添加下降控制来改变他们的 SMSB 系统。而这些救援队一直在他们的主线操作中加入一个自启动组件,比如普鲁士绳。本质上,SMSB 是一种混合系统或绳索救援线管理的连续体——我们将在本文后面更深入地探讨这些细节。
具身智能 (EI) 是一个快速发展的领域,旨在解决有关机器智能本质的新想法。EI 模糊了人工智能和物理智能(分别为 AI 和 PI)之间的界限;它在系统的人工和自然组件之间创建了一个分散的界面。EI 旨在将自然生物中观察到的多模态和多尺度适应性融入机器中,从而为机器人技术提供一种全新的方法,让未来充满自主、有用和安全的机器。想象一个每台机器在形态和神经学上都是独一无二的世界。这样的技术将不受无意的意外(新环境)或有意的意外(对抗性攻击)的影响,因为没有两台机器会共享一个共同的致命弱点。想象一下,当机器一分为二时,会形成两个较小但不同的原始机器版本。想象一下,机器可以分解成独立组件群,并根据需要重新组合成一个物理整体。想象一下,在自主机器中,控制、驱动、感觉、通信、计算和动力之间没有明显的区别,这使得这些机器不受任何一个子系统完全失效的影响。这些机器可能还会包含生物和非生物组件,进一步结合生物和非生物世界的优点,模糊“我们”(人类)和“他们”(机器)之间的区别。
摘要 较高的视线指向精度是提高光电干扰吊舱激光对抗能力的前提。传统光电吊舱中电视跟踪时延降低了系统相位裕度、系统稳定性及视线指向精度。针对这一不足,在两轴四框架结构的内框架位置环中引入归一化LMS算法来补偿电视摄像机时延,使吊舱避免系统相位裕度降低,同时采用快速反射镜系统来提高视线指向精度。首先,提出一种归一化LMS算法;其次,设计了一种外框架模拟控制器和内框架滞后超前控制器的复合控制结构;最后,分析了FSM波束控制精度。实验结果表明,归一化LMS算法几乎没有时延;而且,其方位角和俯仰波束控制精度较传统光电吊舱分别提高15倍和3倍。
海量数据集和大容量模型推动了计算机视觉和自然语言理解领域的许多最新进步。这项工作提供了一个平台,使具身人工智能能够取得类似的成功。我们提出了 P ROC THOR,一个用于程序化生成具身人工智能环境的框架。P ROC THOR 使我们能够对任意大的多样化、交互式、可定制和高性能虚拟环境数据集进行采样,以在导航、交互和操作任务中训练和评估具身代理。我们通过 10,000 个生成的房屋样本和一个简单的神经模型展示了 P ROC THOR 的强大功能和潜力。在 P ROC THOR 上仅使用 RGB 图像训练的模型,没有明确的映射,也没有人工任务监督,在 6 个用于导航、重新排列和手臂操作的具身人工智能基准测试中产生了最先进的结果,包括目前正在运行的 Habitat 2022、AI2-THOR Rearrangement 2022 和 RoboTHOR 挑战。我们还通过在 P ROC THOR 上进行预训练(无需在下游基准上进行微调)在这些基准上展示了强大的 0-shot 结果,通常击败了访问下游训练数据的以前最先进的系统。
根据具身理论(包括具身、嵌入、扩展、演绎、情境和扎根认知方法),语言表征与我们与周围世界的互动有着内在联系,这反映在语言处理和学习过程中的特定大脑特征中。这篇共识论文从具身理论与非模态理论的原始竞争出发,探讨了一系列精心挑选的问题,旨在确定运动和感知过程何时以及如何参与语言过程,而不是是否参与。我们的研究领域非常广泛,从具身语义的神经生理特征(例如事件相关电位和场以及神经振荡)到语义处理和语义启动对具体和抽象词的影响,再到第一和第二语言学习,最后,使用虚拟现实来检查具身语义。我们的共同目标是更好地理解运动和感知过程在语言理解和学习所代表的语言表征中的作用。我们达成共识,基于该领域开展的开创性研究,未来的发展方向是通过承认具体和情境语言和语义过程的多模态性、多维性、灵活性和特质来提高研究结果的外部有效性。
根据具身理论(包括具身、嵌入、扩展、演绎、情境和扎根认知方法),语言表征与我们与周围世界的互动有着内在联系,这反映在语言处理和学习过程中的特定大脑特征中。从具身理论与非模态理论的原始竞争开始,这篇共识论文讨论了一系列精心挑选的问题,旨在确定运动和感知过程何时以及如何参与语言过程,而不是是否参与。我们的研究领域非常广泛,从具身语义的神经生理特征(例如事件相关电位和场以及神经振荡)到语义处理和语义启动对具体和抽象词的影响,到第一和第二语言学习,最后,使用虚拟现实来检查具身语义。我们的共同目标是更好地理解运动和感知过程在语言理解和学习所代表的语言表征中的作用。我们达成共识,基于该领域开展的开创性研究,未来的发展方向是通过承认具体和情境语言和语义过程的多模态性、多维性、灵活性和特质来提高研究结果的外部有效性。
语言处理受感觉运动体验的影响。在这里,我们回顾了语言处理中体现和扎根影响的行为证据,这些影响涵盖六个语言粒度级别。我们研究 (a) 子词特征,讨论扎根对图像性(词形和含义之间的系统关联)的影响;(b) 单词,讨论模拟颜色、感觉模态和空间位置的边界条件和概括;(c) 句子,讨论动作方向模拟的边界条件和应用;(d) 文本,讨论模拟教学如何提高初学者的理解力;(e) 对话,讨论多模态线索如何改善轮流和对齐;(f) 文本语料库,讨论分布式语义模型如何揭示扎根和体现知识在文本中的编码方式。这些方法正在汇聚成令人信服的语言心理学解释,但与此同时,对体现方法和特定实验范式也提出了重要的批评。最可靠的前进之路需要采用多种科学方法。通过提供互补证据,结合不同粒度级别的多种方法可以帮助我们更全面地了解语言处理中体现和基础的作用。
然而,表达和实施这些思考是困难的,特别是在机器人和人工智能 (AI) 等新的复杂领域。为了这个目的,本书收集了体现人工智能的多样性、公平性和包容性 (DEI4EAI) 项目的思考、见解和工具。本书面向从事体现人工智能工作并有兴趣为更公平和公正的未来做出贡献的学生、研究人员、设计师、开发人员和社会利益相关者。所有那些被称为普通的东西实际上都是文化性的:它们代表着价值观、信仰和叙述,影响我们如何收集和使用数据、如何设计算法、如何定义代理、如何塑造人工智能体现、如何设计交互以及我们如何定义体现人工智能干预。尽管角色和能力不同,设计师、研究人员和更广泛的利益相关者(如政策制定者和社区)都有责任反思他们的价值观、观点、偏见和刻板印象如何影响具体化的人工智能技术。这很重要,因为孤立的实践会影响我们评估行为风险和危害的能力。为了防止设计有害和不充分的技术,需要以反思和开放的态度审视叙述、实践和方法,以转变思维方式。
对比语言图像预训练 (CLIP) 编码器已被证明对从分类和检测到字幕和图像处理等一系列视觉任务有益。我们研究了 CLIP 视觉主干对 Embodied AI 任务的有效性。我们构建了非常简单的基线,称为 EmbCLIP,没有任务特定的架构、归纳偏差(例如使用语义图)、训练期间的辅助任务或深度图——但我们发现我们改进的基线在一系列任务和模拟器中表现非常出色。EmbCLIP 在 RoboTHOR ObjectNav 排行榜上以 20 分(成功率)的巨大优势名列前茅。它在 iTHOR 1-Phase Rearrangement 排行榜上名列前茅,击败了采用主动神经映射的第二佳提交作品,并且 % Fixed Strict 指标增加了一倍多(0.08 到 0.17)。它还击败了 2021 年 Habitat ObjectNav 挑战赛的获胜者,该挑战赛采用了辅助任务、深度图和人工演示,以及 2019 年 Habitat PointNav 挑战赛的获胜者。我们评估了 CLIP 的视觉表示在捕获输入观察的语义信息方面的能力——这些原语对于导航繁重的具身任务很有用——并发现 CLIP 的表示比 ImageNet 预训练的主干更有效地编码了这些原语。最后,我们扩展了我们的一个基线,生成了一个能够进行零样本物体导航的代理,它可以导航到训练期间未用作目标的物体。我们的代码和模型可以在 https://github.com/allenai/embodied-clip 获得。