详细内容或原文请订阅后点击阅览
使用语言让机器人更好地掌握开放的世界
通过将 2D 图像与基础模型混合以构建 3D 特征场,麻省理工学院的一种新方法可以帮助机器人通过开放式语言提示理解和操纵附近的物体。
来源:Robohub机器人操作特征字段 (F3RM) 使机器人能够使用自然语言解释开放式文本提示,帮助机器操作不熟悉的物体。该系统的 3D 特征字段可能在包含数千个物体的环境中很有用,例如仓库。图片由研究人员提供。
图片由研究人员提供。作者:Alex Shipps | MIT CSAIL
作者:Alex Shipps | MIT CSAIL想象一下,您正在国外拜访一位朋友,您查看他们的冰箱,看看什么可以做一顿美味的早餐。许多物品最初对您来说都很陌生,每个物品都装在陌生的包装和容器中。尽管有这些视觉上的区别,但您开始了解每个物品的用途,并根据需要拿起它们。
受人类处理不熟悉物体的能力的启发,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的一个团队设计了机器人操作特征场 (F3RM),该系统将 2D 图像与基础模型特征融合到 3D 场景中,帮助机器人识别和抓取附近的物品。F3RM 可以解释人类的开放式语言提示,使该方法在包含数千个物体的现实环境中很有用,例如仓库和家庭。
F3RM F3RMF3RM 使机器人能够使用自然语言解释开放式文本提示,帮助机器操作物体。因此,机器可以理解人类不太具体的要求,并且仍然完成所需的任务。例如,如果用户要求机器人“拿起一个高杯子”,机器人可以找到并抓取最符合该描述的物品。
杨戈通过观察了解“什么在哪里”
菲利普·伊索拉创建“数字孪生”
神经辐射场 CLIP保持开放性
威廉·沈麻省理工学院新闻