具身人工智能是机器学习、计算机视觉、机器人技术和语言技术的集成,最终实现人工智能的“具身化”:能够看、做、思考和行动的机器人。
视觉识别生态系统(例如 ImageNet、Pascal、COCO)在现代计算机视觉的发展中发挥了不可否认的作用。我们认为,在这些生态系统出现之前,交互式和具身视觉 AI 已经达到了与视觉识别类似的发展阶段。最近,各种合成环境已被引入以促进具身 AI 的研究。尽管取得了这些进展,但在模拟中训练的模型如何很好地推广到现实这个关键问题仍然基本上没有答案。为模拟到现实的具身 AI 创建一个可比的生态系统提出了许多挑战:(1)问题固有的交互性,(2)现实世界和模拟世界之间需要紧密结合,(3)复制可重复实验的物理条件的难度,(4)以及相关成本。在本文中,我们引入了 R OBO THOR 来使交互式和具身视觉 AI 的研究民主化。 R OBO THOR 提供模拟环境框架
Evans, L. (2018)。虚拟现实的重新出现。劳特利奇。Farman, J.(2020)。移动界面理论:具身空间和定位媒体。劳特利奇。Featherstone, M.,& Burrows, R. (1996)。网络空间/赛博体/赛博朋克:技术具身文化。SAGE。Fox, J.、Bailenson, J. N.,& Tricase, L. (2013)。性化虚拟自我的具身化:普罗透斯效应和经验
摘要 — 从“互联网人工智能”时代到“具身人工智能”时代,出现了一种新兴的范式转变,人工智能算法和代理不再从主要来自互联网的图像、视频或文本数据集中学习。相反,他们通过与环境的互动从类似于人类的自我中心感知中进行学习。因此,对具身人工智能模拟器的需求大幅增长,以支持各种具身人工智能研究任务。对具身人工智能日益增长的兴趣有利于对通用人工智能 (AGI) 的更大追求,但目前还没有对这一领域的当代和全面的调查。本文旨在为具身人工智能领域提供百科全书式的调查,从其模拟器到其研究。通过评估我们提出的七个特征的九个当前具象人工智能模拟器,本文旨在了解模拟器在具象人工智能研究中的用途及其局限性。最后,本文调查了具象人工智能的三个主要研究任务——视觉探索、视觉导航和具象问答 (QA),涵盖了最先进的方法、评估指标和数据集。最后,通过调查该领域发现的新见解,本文将为任务模拟器的选择提供建议,并为该领域的未来方向提供建议。
摘要 越来越多的艺术品由机器通过算法创作,几乎不需要人类的输入。然而,人们对机器生成的艺术品的态度和评价知之甚少。当前的研究调查了(a)个人是否能够准确区分人造艺术品和人工智能生成的艺术品,以及(b)归因知识(即有关谁创作了内容的信息)在他们评价和接受艺术品中的作用。数据是使用 Amazon Turk 样本从在 Qualtrics 上设计的两个调查实验中收集的。研究结果表明,个人无法准确识别人工智能生成的艺术品,他们很可能将具象艺术与人类联系起来,将抽象艺术与机器联系起来。归因知识和艺术品类型(具象与抽象)之间也存在对购买意向和艺术品评价的相互作用。
陷阱 2. 暗示性图像:人形机器人的图像经常用于说明有关人工智能的文章,即使文章的内容与机器人无关。这给读者一种错误的印象,认为人工智能工具是具象的,即使它只是从数据中学习模式的软件。
摘要 多感官身体错觉的证据表明,身体表征可能是可塑的,例如,通过体现外部物体。然而,根据当前任务需求调整身体表征也意味着,如果不再需要外部物体,它们就会脱离身体表征。在当前的网络研究中,我们引入了二维 (2D) 虚拟手的具象化,可以通过计算机鼠标或触摸板的主动移动来控制。在初始具象化之后,我们通过比较两种情况来探索脱离身体的情况:参与者要么继续移动虚拟手,要么停止移动并保持手静止。基于将身体表征概念化为一组多感官绑定的理论解释,如果身体表征不再通过相关的视觉运动信号更新,我们预计虚拟手会逐渐脱离身体。与我们的预测相反,一旦参与者停止移动虚拟手,它就会立即脱离身体。这个结果在两个后续实验中得到了复制。观察到的瞬间脱离肉身可能表明人类对虚拟环境中动作和身体的快速变化很敏感,因此会特别迅速地调整相应的身体表现。
本白皮书借鉴了运营和技术专家和高管的见解,从战略角度对这些问题进行了阐述,重点关注人工智能代理带来的转型。它提出了人工智能驱动的近乎自动化的工业运营的前瞻性愿景。它探讨了人工智能代理在实现这一愿景中的作用,特别是虚拟人工智能和具象人工智能代理,并提供了具体的例子和案例研究来证明它们的价值。此外,它还概述了成功扩展这些技术所必需的战略要务。虽然人工智能代理具有变革潜力,但必须认识到它们尚未完全开发。领先的公司正在运行试点来测试它们的能力,它们的规模影响将在未来几年内实现。
© 2018 Réunion des musées nationaux / Mathieu Rabeau 标题:伊朗书法家米尔·阿里·哈拉维 (Mir Ali Haravi) 的 Golshan 相册中的书法页面,带有莫卧儿具象边框。 对象类型:相册页面 艺术家/创作者:书法由米尔·阿里·哈拉维 (Mir 'Ali Haravi) 完成,边框由莫卧儿艺术家设计 创作地点:莫卧儿帝国 (印度;伊朗) 日期:16 世纪和 17 世纪前 25 年 (1500 – 1600 年和 1600 – 1625 年) 材料/介质:纸上水彩、墨水和金色 尺寸:220 x 111 毫米(书法); 402 x 263 毫米(页)(高 x 宽) 出借人名称:Musée du Louvre, Département des Arts de l'Islam 出借人地址:75058 PARIS Cedex 01, France 藏品号:OA 7155 来源:卢浮宫博物馆于 1916 年根据 Georges Marteau 的遗赠获得。 1933-45 年间所有权:卢浮宫博物馆 请注意,该物品具有 1933-1945 年的完整出处。
• 在没有大量人为监督的情况下,在变化多端且不可预测的情况下执行任务,或者在接触数据集时可以从经验中学习并提高性能; • 在任何环境下开发,包括但不限于软件或物理硬件,并解决需要类似人类感知、认知、规划、学习、交流或身体动作的任务; • 旨在:像人类一样思考或行动。例如,但不限于,显示通过智能软件代理或具象机器人实现感知、规划、推理、学习、交流、决策或行动的认知架构或神经网络; • 由一组技术组成,包括但不限于机器学习,旨在近似认知任务。 • 可解释性 – 人工智能系统的一种属性,用于以人类可以理解的方式表达影响人工智能系统的基本因素。 • 大型语言模型 (LLM) – 一种可以识别和生成文本等任务的人工智能程序。LLM 是在大量数据集上进行训练的 – 因此得名“大型”。 LLM 建立在机器学习的基础上:具体来说,是一种称为变换器模型的神经网络。• 机器学习 - 使用和开发能够在不遵循明确指令的情况下学习和适应的计算机系统,通过使用算法和统计模型来分析数据模式并从中得出推论。