多种人工智能模型帮助机器人更透明地执行复杂计划

多模态系统使用经过语言、视觉和动作数据训练的模型来帮助机器人制定和执行家庭、建筑和制造任务的计划。

来源:MIT新闻 _机器人

您的每日待办事项清单可能非常简单:洗碗、买杂货和其他琐事。您不太可能写下“拿起第一个脏盘子”或“用海绵洗盘子”,因为家务活中的每个小步骤都让人感觉很直观。虽然我们可以不假思索地完成每个步骤,但机器人需要一个复杂的计划,其中包含更详细的概述。

麻省理工学院的 Improbable AI Lab 是计算机科学和人工智能实验室 (CSAIL) 下属的一个小组,它通过一种新的多模式框架为这些机器提供了帮助:分层规划的组合基础模型 (HiP),它利用三种不同基础模型的专业知识制定详细、可行的计划。与 OpenAI 的 GPT-4(ChatGPT 和 Bing Chat 所基于的基础模型)一样,这些基础模型在大量数据上进行训练,可用于生成图像、翻译文本和机器人等应用。与 RT2 和其他在成对的视觉、语言和动作数据上进行训练的多模态模型不同,HiP 使用三个不同的基础模型,每个模型都在不同的数据模态上进行训练。每个基础模型捕获决策过程的不同部分,然后在做出决策时协同工作。HiP 消除了对难以获得的成对视觉、语言和动作数据的访问需求。HiP 还使推理过程更加透明。

用于分层规划的组合基础模型 评估 HiP

CSAIL 团队在三个操作任务上测试了 HiP 的敏锐度,其表现优于同类框架。该系统通过制定适应新信息的智能计划进行推理。

三管齐下的层次结构

三管齐下的层次结构 描述工作的论文