摘要 - LARGE语言模型(LLM)经历了显着的扩展,并越来越多地整合在各个领域。值得注意的是,在机器人任务计划的领域中,LLMS利用其先进的推理和语言理解能力,根据自然语言指示制定精确有效的行动计划。然而,对于机器人与复杂环境相互作用的具体任务,仅文本LLMS通常由于缺乏与机器人视觉感知的兼容性而面临挑战。本研究提供了全面的概述,概述了LLM和多模式LLMS中的新兴整合到各种机器人任务中。此外,我们提出了一个框架,该框架利用多模式GPT-4V通过自然语言指令和机器人视觉看法的结合来增强体现的任务计划。我们的结果基于不同的数据集,表明GPT-4V有效地增强了具体任务中的机器人性能。对各种机器人任务的LLM和多模式LLM的广泛调查和评估丰富了对以LLM为中心的以LLM的体现智能的理解,并为弥合人类机器人 - 环境相互作用的差距提供了前瞻性的见解。
主要关键词