视觉识别生态系统(例如 ImageNet、Pascal、COCO)在现代计算机视觉的发展中发挥了不可否认的作用。我们认为,在这些生态系统出现之前,交互式和具身视觉 AI 已经达到了与视觉识别类似的发展阶段。最近,各种合成环境已被引入以促进具身 AI 的研究。尽管取得了这些进展,但在模拟中训练的模型如何很好地推广到现实这个关键问题仍然基本上没有答案。为模拟到现实的具身 AI 创建一个可比的生态系统提出了许多挑战:(1)问题固有的交互性,(2)现实世界和模拟世界之间需要紧密结合,(3)复制可重复实验的物理条件的难度,(4)以及相关成本。在本文中,我们引入了 R OBO THOR 来使交互式和具身视觉 AI 的研究民主化。 R OBO THOR 提供模拟环境框架
具身人工智能是机器学习、计算机视觉、机器人技术和语言技术的集成,最终实现人工智能的“具身化”:能够看、做、思考和行动的机器人。
Evans, L. (2018)。虚拟现实的重新出现。劳特利奇。Farman, J.(2020)。移动界面理论:具身空间和定位媒体。劳特利奇。Featherstone, M.,& Burrows, R. (1996)。网络空间/赛博体/赛博朋克:技术具身文化。SAGE。Fox, J.、Bailenson, J. N.,& Tricase, L. (2013)。性化虚拟自我的具身化:普罗透斯效应和经验