详细内容或原文请订阅后点击阅览
研究人员使用大型语言模型改进移动机器人导航
开发的系统使用语言指令指导机器人,减少对大量视觉数据的需求。
来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)开发的系统使用语言指令指导机器人,减少对大量视觉数据的需求。
麻省理工学院和 MIT-IBM Watson 人工智能实验室的研究人员开发了一种导航方法,可以将视觉表示转换为文本块,然后将其输入到一个大型语言模型中,该模型可以处理多步骤导航任务的所有部分。
该方法不是将机器人环境的视觉特征编码为视觉表示(这在计算上是昂贵的),而是创建描述机器人所见内容的文本签名。大型语言模型使用这些签名来预测机器人应该采取的行动来遵循用户的语言指令。
由于数据方法使用纯粹的语言表示,因此大型语言模型可以有效地生成大量的合成训练数据。
研究人员表示,虽然这种方法的性能并不优于使用视觉特征的方法,但在没有足够视觉数据进行训练的情况下效果很好。研究人员发现,将语言输入与视觉提示相结合可以提高导航性能。
“通过仅使用语言作为感知表示,我们采取了一种更简单的方法。由于所有输入数据都可以编码为语言,因此我们可以生成人类可读的轨迹,”计算机系研究生 Bowen Pan 说道。电气工程和计算机科学 (EECS),也是有关此方法的论文的主要作者。
简单来说,你可以让你的机器人把脏衣服搬下楼梯,然后放进地下室最左角的洗衣机里。接下来,机器人本身将能够将您的指令与视觉观察进行比较,并确定完成此任务的步骤。