摘要 - 表达机器人行为对于在社交环境中广泛接受机器人至关重要。学习的腿部运动控制器的最新进展已实现了更具动态和多功能的机器人行为。,确定在各种情况下与不同用户互动的最佳行为仍然是一个挑战。当前方法要么依赖于自然语言输入,这是有效但低分辨率的,要么从人类的偏好中学习,尽管高分辨率却是效率低下的样本。本文介绍了一种新的方法,该方法利用了预先训练的LLMS产生的先验,并在偏好学习的精确度上。我们的方法称为语言引导的偏好学习(LGPL),使用LLMS生成初始行为样本,然后通过基于偏好的反馈来完善这些样本,以学习与人类期望紧密相符的行为。我们的核心见解是,LLM可以指导偏好学习的抽样过程,从而实现样本效率的实质性提高。我们证明,LGPL可以快速学习精确和表现力的行为,只有四个查询,既优于纯语言参数模型和传统的偏好学习方法。带有视频的网站:此HTTP URL。
主要关键词