然而,表达和实施这些思考是困难的,特别是在机器人和人工智能 (AI) 等新的复杂领域。为了这个目的,本书收集了体现人工智能的多样性、公平性和包容性 (DEI4EAI) 项目的思考、见解和工具。本书面向从事体现人工智能工作并有兴趣为更公平和公正的未来做出贡献的学生、研究人员、设计师、开发人员和社会利益相关者。所有那些被称为普通的东西实际上都是文化性的:它们代表着价值观、信仰和叙述,影响我们如何收集和使用数据、如何设计算法、如何定义代理、如何塑造人工智能体现、如何设计交互以及我们如何定义体现人工智能干预。尽管角色和能力不同,设计师、研究人员和更广泛的利益相关者(如政策制定者和社区)都有责任反思他们的价值观、观点、偏见和刻板印象如何影响具体化的人工智能技术。这很重要,因为孤立的实践会影响我们评估行为风险和危害的能力。为了防止设计有害和不充分的技术,需要以反思和开放的态度审视叙述、实践和方法,以转变思维方式。
对比语言图像预训练 (CLIP) 编码器已被证明对从分类和检测到字幕和图像处理等一系列视觉任务有益。我们研究了 CLIP 视觉主干对 Embodied AI 任务的有效性。我们构建了非常简单的基线,称为 EmbCLIP,没有任务特定的架构、归纳偏差(例如使用语义图)、训练期间的辅助任务或深度图——但我们发现我们改进的基线在一系列任务和模拟器中表现非常出色。EmbCLIP 在 RoboTHOR ObjectNav 排行榜上以 20 分(成功率)的巨大优势名列前茅。它在 iTHOR 1-Phase Rearrangement 排行榜上名列前茅,击败了采用主动神经映射的第二佳提交作品,并且 % Fixed Strict 指标增加了一倍多(0.08 到 0.17)。它还击败了 2021 年 Habitat ObjectNav 挑战赛的获胜者,该挑战赛采用了辅助任务、深度图和人工演示,以及 2019 年 Habitat PointNav 挑战赛的获胜者。我们评估了 CLIP 的视觉表示在捕获输入观察的语义信息方面的能力——这些原语对于导航繁重的具身任务很有用——并发现 CLIP 的表示比 ImageNet 预训练的主干更有效地编码了这些原语。最后,我们扩展了我们的一个基线,生成了一个能够进行零样本物体导航的代理,它可以导航到训练期间未用作目标的物体。我们的代码和模型可以在 https://github.com/allenai/embodied-clip 获得。
摘要 多重外部表征 (MER) 对于科学、数学和工程学的实践和学习至关重要,因为这些领域中研究和控制的现象和实体通常无法被感知和采取行动。因此,MER 在这些领域的推理中发挥着双重构成作用。首先,MER 代表想象中的现象和实体,从而使科学研究成为可能。其次,与上述内容相关的是,与 MER 的感觉运动和想象互动使得涉及这些现象和实体的集中认知操作成为可能,例如心理旋转和类比变换。这两个构成作用表明,获得科学、数学和工程学的专业知识需要发展转化和整合该领域 MER 的能力,同时在想象中对 MER 所代表的现象和实体进行操作。因此,这种整合外部和内部表征及其操作的核心能力(称为表征能力 (RC))对于科学、数学和工程学的学习至关重要。但是,目前尚无关于这一核心过程的一般说明。我们认为,鉴于 MER 发挥的上述两个构成作用,表征能力的理论解释需要一个明确的模型来说明认知系统如何与外部表征相互作用,以及想象力如何
摘要 — 从“互联网人工智能”时代到“具身人工智能”时代,出现了一种新兴的范式转变,人工智能算法和代理不再从主要来自互联网的图像、视频或文本数据集中学习。相反,他们通过与环境的互动从类似于人类的自我中心感知中进行学习。因此,对具身人工智能模拟器的需求大幅增长,以支持各种具身人工智能研究任务。对具身人工智能日益增长的兴趣有利于对通用人工智能 (AGI) 的更大追求,但目前还没有对这一领域的当代和全面的调查。本文旨在为具身人工智能领域提供百科全书式的调查,从其模拟器到其研究。通过评估我们提出的七个特征的九个当前具象人工智能模拟器,本文旨在了解模拟器在具象人工智能研究中的用途及其局限性。最后,本文调查了具象人工智能的三个主要研究任务——视觉探索、视觉导航和具象问答 (QA),涵盖了最先进的方法、评估指标和数据集。最后,通过调查该领域发现的新见解,本文将为任务模拟器的选择提供建议,并为该领域的未来方向提供建议。
为什么要研究这个问题?从线虫到鱼类、啮齿动物和灵长类动物,进化一直都在实现我们尚未实现的目标,即能够灵活而稳健地与物理世界互动以确保其生存的具身代理。这种感觉运动回路是跨物种共享的智能的基础,我们更抽象的推理能力(包括语言)也依赖于此。然而,设计这种能力一直是人工智能(AI)面临的一项重大计算挑战,尤其是考虑到制造通用机器人一直是一个长期目标(但尚未实现)。尽管算法和数据集规模的进步使有效的表征学习成为可能[18],但当前的人工智能仍难以理解
艾伦·图灵开发了图灵测试,作为一种方法来确定人工智能 (AI) 是否能够通过以 30% 以上的置信度回答问题来欺骗人类询问者相信它具有感知能力。然而,图灵测试关注的是自然语言处理 (NLP),而忽略了外观、交流和运动的重要性。本文的核心理论命题:“机器可以模仿人类吗?”既涉及功能性,也涉及物质性。许多学者认为,创造一个在感知上与人类无法区分的逼真的人形机器人 (RHR) 是人类技术能力的顶峰。然而,目前还没有全面的开发框架供工程师实现更高模式的人类模仿,而且目前的评估方法还不够细致,无法检测恐怖谷 (UV) 效应的因果影响。多模态图灵测试 (MTT) 提供了这样的方法,并为在 RHR 中创建更高水平的人类相似性以增强人机交互 (HRI) 奠定了基础
截止时间前8天 - 另外,直接工程成本明细表还应包括与所提供数量等相对应的摘要(对于土木工程,则为标准和尺寸),以及数量、单位、单价、金额等。 建筑成本明细...
摘要 在计算机视觉和机器人领域,具身代理有望探索其环境并执行人类的指令。 这就需要能够根据第一人称观察充分理解 3D 场景,并将其语境化为语言进行交互。 然而,传统研究更多地侧重于从全局视角进行场景级输入和输出设置。 为了解决这一差距,我们引入了 EmbodiedScan,这是一个多模态、以自我为中心的 3D 感知数据集和整体 3D 场景理解的基准。 它包含超过 5k 个扫描,封装了 1M 个以自我为中心的 RGB-D 视图、1M 个语言提示、160k 个 3D 导向框,涵盖 760 多个类别,其中一些与 LVIS 部分一致,以及具有 80 个常见类别的密集语义占用率。 基于这个数据库,我们引入了一个名为 Embodied Perceptron 的基线框架。它能够处理任意数量的多模态输入,并表现出卓越的 3D 感知能力,无论是在我们建立的两个系列基准测试(即基本 3D 感知任务和基于语言的任务)中,还是在野外。