摘要。大型语言模型(LLM)在深度学习方面取得了重大成功。仍然需要解决机器人技术和人类机器人互动(HRI)的剩余挑战,但是具有先进的语言和推理能力的现成的预先训练的LLM可以为该领域的问题提供解决方案。在这项工作中,我们意识到了一个开放式的HRI场景,涉及与人类交流的人形机器人,同时在桌子上执行机器人对象操纵任务。为此,我们将语音识别,视觉语言,文本到语音和开放世界对象检测的预先训练的一般模型与视觉空间坐标转移的机器人特异性模型和逆向主体以及任务特定的运动模型结合在一起。我们的实验揭示了语言模型在准确选择任务模式和整个模型中在开放式对话过程中正确执行动作的强劲性能。我们的创新体系结构可以通过开放式对话,场景描述,开放世界对象检测和操作执行的无缝集成。这是一种用于不同机器人平台和HRI场景的模块化解决方案。
主要关键词