Elaine Schaertl Short Elaine.short@tufts.edu工程学院塔夫茨大学抽象基础模型是通往通用和用户友好机器人的有前途的途径。普遍的方法涉及培训“通才政策”,该政策像强化学习政策一样,使用观察结果来输出动作。尽管这种方法取得了很大的成功,但是在考虑与这些系统的部署和最终用户互动时,出现了一些问题。特别是,任务之间缺乏模块化意味着,当更新模型权重(例如,当用户提供反馈时)时,其他无关任务的行为可能会受到影响。这可能会对系统的解释性和USABIL产生负面影响。我们提供了一种替代方法,用于设计机器人基础模型的设计,策略参数的扩散(DPP),该方法生成独立的,特定于任务的策略。由于这些策略与基础模型分离,因此仅在用户想要通过反馈或个性化的情况下更新它们,从而使他们能够高度熟悉该策略。我们在模拟中证明了DPP的概念概念证明,然后讨论其局限性以及可解释的基础模型的未来。
主要关键词