研究人员使用大型语言模型帮助机器人导航

该方法使用基于语言的输入而不是昂贵的视觉数据来指导机器人完成多步导航任务。

来源:MIT新闻 _机器人

有一天,你可能希望你的家用机器人能把一堆脏衣服搬到楼下,并把它们放在地下室最左边角落的洗衣机里。机器人需要结合你的指令和视觉观察来确定完成这项任务应该采取的步骤。

对于人工智能代理来说,这说起来容易做起来难。目前的方法通常利用多个手工制作的机器学习模型来处理任务的不同部分,这需要大量的人力和专业知识来构建。这些方法使用视觉表征直接做出导航决策,需要大量的视觉数据进行训练,而这些数据通常很难获得。

为了克服这些挑战,麻省理工学院和麻省理工学院-IBM Watson AI 实验室的研究人员设计了一种导航方法,将视觉表征转换成语言片段,然后将其输入到一个大型语言模型中,该模型可实现多步骤导航任务的所有部分。

他们的方法不是将机器人周围环境图像中的视觉特征编码为视觉表示(这需要大量计算),而是创建描述机器人观点的文本标题。大型语言模型使用标题来预测机器人应采取的操作以执行用户的基于语言的指令。

由于他们的方法利用纯粹基于语言的表示,因此他们可以使用大型语言模型有效地生成大量合成训练数据。

虽然这种方法并不优于使用视觉特征的技术,但在缺乏足够视觉数据进行训练的情况下,它表现良好。研究人员发现,将基于语言的输入与视觉信号相结合可以提高导航性能。

关于此方法的论文

用语言解决视觉问题

用语言解决视觉问题

该模型重复这些过程以生成一条轨迹,引导机器人一步一步到达目标。