摘要 - 连接和互动机器人学习是一个挑战问题,因为人类用户与人类用户一起存在,他们期望机器人学习新颖的技能,以通过样本效率永久解决新颖的任务。在这项工作中,我们为机器人提供了一个框架,可以通过与人类用户的自然语言对话框进行互动来查询和学习与任务相关信息。以前的方法要么着重于提高代理的指导性能,要么被动地学习新颖的技能或概念。相反,我们使用了对话框与语言技能接地嵌入在一起来查询或确认用户要求的技能和/或任务。为了实现这一目标,我们为代理商开发并整合了三个不同的组件。首先,我们提出了一种具有低级适应性(ACT-LORA)的新型视觉运动控制政策法案,这使现有的最新动作分解变压器[28]模型可以执行几次持续学习。其次,我们开发了一个对齐模型,该模型将跨技能实施例演示的分配模型分为共同的嵌入,使我们知道何时向用户提出问题和/或演示。最后,我们集成了现有的大型语言模型(LLM),以与人类用户进行交互,以执行扎根的互动持续技巧学习以解决任务。我们的ACT-Lora模型在仅接受五个新型技能的示威训练时,以100%的精度学习新颖的微调技能,同时仍保持74。在RLBench数据集中,其他模型的精度为75%,在其他模型中却显着短。
主要关键词