使用语言让机器人更好地掌握开放的世界

通过将 2D 图像与基础模型混合以构建 3D 特征场,麻省理工学院的一种新方法可以帮助机器人通过开放式语言提示理解和操纵附近的物体。

来源:MIT新闻 _机器人

想象一下,你正在国外拜访一位朋友,你查看了他们冰箱里的东西,想看看什么可以做一顿丰盛的早餐。许多物品最初对你来说都是陌生的,每个物品都装在陌生的包装和容器中。尽管有这些视觉上的区别,但你还是开始了解每个物品的用途,并在需要时拿起它们。

受人类处理不熟悉物体的能力的启发,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的一个团队设计了机器人操作特征场 (F3RM),该系统将 2D 图像与基础模型特征融合到 3D 场景中,帮助机器人识别和抓取附近的物品。F3RM 可以解释人类的开放式语言提示,使该方法在包含数千个物体的现实环境中很有用,例如仓库和家庭。

F3RM

F3RM 使机器人能够使用自然语言解释开放式文本提示,帮助机器操纵物体。因此,机器可以理解人类不太具体的要求,并完成所需的任务。例如,如果用户要求机器人“拿起一个高大的杯子”,机器人可以找到并抓取最符合该描述的物品。

“制造能够在现实世界中真正概括的机器人非常困难,”美国国家科学基金会人工智能与基本相互作用研究所和麻省理工学院 CSAIL 的博士后 Ge Yang 说。“我们真的想弄清楚如何做到这一点,所以在这个项目中,我们试图推动一个激进的概括水平,从三四个物体到我们在麻省理工学院 Stata 中心找到的任何东西。我们想学习如何让机器人像我们一样灵活,因为我们可以抓取和放置物体,即使我们以前从未见过它们。”

通过观察了解“什么在哪里” 创建“数字孪生” 神经辐射场 CLIP 保持开放性