Loading...
机构名称:
¥ 6.0

虽然机器人代理人越来越擅长低级操纵技巧,但越来越多的大型语言模型计划者指导他们将综合任务分解为子目标。最近的作品表明这些语言模型也可能是有效的技能学习者。我们开发了HALP 2.0,这是一个模块化且可扩展的人类辅助语言计划中学习的框架,使用GPT-4提出了一系列技能课程,这些技能已被学到,使用,使用并智能地重复使用。我们的系统是为大型实验设计的,配备了用户友好的界面,并且可以扩展到新的技能学习框架。我们通过比较抽象的替代实现并通过合并新型框架来证明可扩展性。更重要的是,我们使用众包场景和任务数据集进行了针对GPT-4的重点研究,发现语言模型是技能重复使用和适应能力的能力。我们观察到,尽管性能取决于语言上下文,但提供优化的提示可以产生出色的技能再利用行为。我们设想,随着操纵原语和大型语言模型变得越来越强大,我们的系统将准备好综合其能力,以创建一个自治系统,以供终身学习,有一天可以在现实世界中部署。

机器人操纵中基于LLM的终身学习的框架

机器人操纵中基于LLM的终身学习的框架PDF文件第1页

机器人操纵中基于LLM的终身学习的框架PDF文件第2页

机器人操纵中基于LLM的终身学习的框架PDF文件第3页

机器人操纵中基于LLM的终身学习的框架PDF文件第4页

机器人操纵中基于LLM的终身学习的框架PDF文件第5页

相关文件推荐