对比语言图像预训练 (CLIP) 编码器已被证明对从分类和检测到字幕和图像处理等一系列视觉任务有益。我们研究了 CLIP 视觉主干对 Embodied AI 任务的有效性。我们构建了非常简单的基线,称为 EmbCLIP,没有任务特定的架构、归纳偏差(例如使用语义图)、训练期间的辅助任务或深度图——但我们发现我们改进的基线在一系列任务和模拟器中表现非常出色。EmbCLIP 在 RoboTHOR ObjectNav 排行榜上以 20 分(成功率)的巨大优势名列前茅。它在 iTHOR 1-Phase Rearrangement 排行榜上名列前茅,击败了采用主动神经映射的第二佳提交作品,并且 % Fixed Strict 指标增加了一倍多(0.08 到 0.17)。它还击败了 2021 年 Habitat ObjectNav 挑战赛的获胜者,该挑战赛采用了辅助任务、深度图和人工演示,以及 2019 年 Habitat PointNav 挑战赛的获胜者。我们评估了 CLIP 的视觉表示在捕获输入观察的语义信息方面的能力——这些原语对于导航繁重的具身任务很有用——并发现 CLIP 的表示比 ImageNet 预训练的主干更有效地编码了这些原语。最后,我们扩展了我们的一个基线,生成了一个能够进行零样本物体导航的代理,它可以导航到训练期间未用作目标的物体。我们的代码和模型可以在 https://github.com/allenai/embodied-clip 获得。
摘要 多重外部表征 (MER) 对于科学、数学和工程学的实践和学习至关重要,因为这些领域中研究和控制的现象和实体通常无法被感知和采取行动。因此,MER 在这些领域的推理中发挥着双重构成作用。首先,MER 代表想象中的现象和实体,从而使科学研究成为可能。其次,与上述内容相关的是,与 MER 的感觉运动和想象互动使得涉及这些现象和实体的集中认知操作成为可能,例如心理旋转和类比变换。这两个构成作用表明,获得科学、数学和工程学的专业知识需要发展转化和整合该领域 MER 的能力,同时在想象中对 MER 所代表的现象和实体进行操作。因此,这种整合外部和内部表征及其操作的核心能力(称为表征能力 (RC))对于科学、数学和工程学的学习至关重要。但是,目前尚无关于这一核心过程的一般说明。我们认为,鉴于 MER 发挥的上述两个构成作用,表征能力的理论解释需要一个明确的模型来说明认知系统如何与外部表征相互作用,以及想象力如何
海量数据集和大容量模型推动了计算机视觉和自然语言理解领域的许多最新进步。这项工作提供了一个平台,使具身人工智能能够取得类似的成功。我们提出了 P ROC THOR,一个用于程序化生成具身人工智能环境的框架。P ROC THOR 使我们能够对任意大的多样化、交互式、可定制和高性能虚拟环境数据集进行采样,以在导航、交互和操作任务中训练和评估具身代理。我们通过 10,000 个生成的房屋样本和一个简单的神经模型展示了 P ROC THOR 的强大功能和潜力。在 P ROC THOR 上仅使用 RGB 图像训练的模型,没有明确的映射,也没有人工任务监督,在 6 个用于导航、重新排列和手臂操作的具身人工智能基准测试中产生了最先进的结果,包括目前正在运行的 Habitat 2022、AI2-THOR Rearrangement 2022 和 RoboTHOR 挑战。我们还通过在 P ROC THOR 上进行预训练(无需在下游基准上进行微调)在这些基准上展示了强大的 0-shot 结果,通常击败了访问下游训练数据的以前最先进的系统。
摘要 根据联邦航空管理局的研究,仅美国航空公司每年就要燃烧 162 亿加仑的航空燃料,导致美国空气污染占全国 3% 以上。航空业贡献了全球空气污染的 1% 以上。与其他污染源相比,这些数字似乎微不足道,但航空业仅占世界贸易货运量的 0.5%,而全球能源消耗量为 2.2%。目前电池和电动机的进步并不能在不久的将来取代燃气涡轮发动机,特别是对于远程飞机而言。本文介绍了一种 BWB 飞机的概念设计,该飞机可载客 160 人,航程 9200 公里,巡航速度为 0.77 马赫数,可通过 FAR 25 认证。设计非常规配置的方法包括传统的飞机设计方法和新方法。在任何航程方程中,升阻比都起着重要作用。对于 BWB 飞机来说,这个比率相当高,而且随着发动机效率的提高,每位乘客每公里的燃油消耗量可以大幅降低。与具有类似载客量和任务特征的传统飞机相比,BWB 飞机的一体式设计提供了较低的空重。
根据具身理论(包括具身、嵌入、扩展、演绎、情境和扎根认知方法),语言表征与我们与周围世界的互动有着内在联系,这反映在语言处理和学习过程中的特定大脑特征中。这篇共识论文从具身理论与非模态理论的原始竞争出发,探讨了一系列精心挑选的问题,旨在确定运动和感知过程何时以及如何参与语言过程,而不是是否参与。我们的研究领域非常广泛,从具身语义的神经生理特征(例如事件相关电位和场以及神经振荡)到语义处理和语义启动对具体和抽象词的影响,再到第一和第二语言学习,最后,使用虚拟现实来检查具身语义。我们的共同目标是更好地理解运动和感知过程在语言理解和学习所代表的语言表征中的作用。我们达成共识,基于该领域开展的开创性研究,未来的发展方向是通过承认具体和情境语言和语义过程的多模态性、多维性、灵活性和特质来提高研究结果的外部有效性。
根据具身理论(包括具身、嵌入、扩展、演绎、情境和扎根认知方法),语言表征与我们与周围世界的互动有着内在联系,这反映在语言处理和学习过程中的特定大脑特征中。从具身理论与非模态理论的原始竞争开始,这篇共识论文讨论了一系列精心挑选的问题,旨在确定运动和感知过程何时以及如何参与语言过程,而不是是否参与。我们的研究领域非常广泛,从具身语义的神经生理特征(例如事件相关电位和场以及神经振荡)到语义处理和语义启动对具体和抽象词的影响,到第一和第二语言学习,最后,使用虚拟现实来检查具身语义。我们的共同目标是更好地理解运动和感知过程在语言理解和学习所代表的语言表征中的作用。我们达成共识,基于该领域开展的开创性研究,未来的发展方向是通过承认具体和情境语言和语义过程的多模态性、多维性、灵活性和特质来提高研究结果的外部有效性。
语言处理受感觉运动体验的影响。在这里,我们回顾了语言处理中体现和扎根影响的行为证据,这些影响涵盖六个语言粒度级别。我们研究 (a) 子词特征,讨论扎根对图像性(词形和含义之间的系统关联)的影响;(b) 单词,讨论模拟颜色、感觉模态和空间位置的边界条件和概括;(c) 句子,讨论动作方向模拟的边界条件和应用;(d) 文本,讨论模拟教学如何提高初学者的理解力;(e) 对话,讨论多模态线索如何改善轮流和对齐;(f) 文本语料库,讨论分布式语义模型如何揭示扎根和体现知识在文本中的编码方式。这些方法正在汇聚成令人信服的语言心理学解释,但与此同时,对体现方法和特定实验范式也提出了重要的批评。最可靠的前进之路需要采用多种科学方法。通过提供互补证据,结合不同粒度级别的多种方法可以帮助我们更全面地了解语言处理中体现和基础的作用。
DOI: 10.7498/aps.71.140101 类脑计算技术作为一种脑启发的新型计算技术 , 具有存算一体、事件驱动、模拟并行等特征 , 为 智能化时代开发高效的计算硬件提供了技术参考 , 有望解决当前人工智能硬件在能耗和算力方面的 “ 不可持续发展 ” 问题 . 硬件模拟神经元和突触功能是发展类脑计算技术的核心 , 而支持这一切实现 的基础是器件以及器件中的物理电子学 . 根据类脑单元实现的物理基础 , 当前类脑芯片主要可以分 为数字 CMOS 型、数模混合 CMOS 型以及新原理器件型三大类 . IBM 的 TrueNorth 、 Intel 的 Loihi 、清华大学的 Tianjic 以及浙江大学的 Darwin 等都是数字 CMOS 型类脑芯片的典型代表 , 旨 在以逻辑门电路仿真实现生物单元的行为 . 数模混合型的基本思想是利用亚阈值模拟电路模拟生物 神经单元的特性 , 最早由 Carver Mead 提出 , 其成功案例有苏黎世的 ROLLs 、斯坦福的 Neurogrid 等 . 以上两种类型的类脑芯片虽然实现方式上有所不同 , 但共同之处在于都是利用了硅基晶体管的 物理特性 . 此外 , 以忆阻器为代表的新原理器件为构建非硅基类脑芯片提供了新的物理基础 . 它们 在工作过程中引入了离子动力学特性 , 从结构和工作机制上与生物单元都具有很高的相似性 , 近年 来受到国内外产业界和学术界的广泛关注 . 鉴于硅基工艺比较成熟 , 当前硅基物理特性是类脑芯片 实现的主要基础 . 忆阻器等新原理器件的类脑计算技术尚处于前沿探索和开拓阶段 , 还需要更成熟 的制备技术、更完善的系统框架和电路设计以及更高效的算法等 .
