Loading...
机构名称:
¥ 1.0

摘要:许多机器人学习方法首先从一组人类示范中推断出奖励功能。要学习良好的奖励,有必要在确定应如何使用这些功能来计算奖励之前确定环境的哪些功能。联合特征和奖励学习的端到端方法(例如,使用深网或程序合成技术)通常会产生对虚假国家敏感的脆弱奖励功能。相比之下,人类通常可以通过将强大的先验纳入少量的示范中,从而可以从少量的示范中学习,以了解示威的特征可能对感兴趣的任务有意义。在从新演示中学习时,我们如何构建利用这种背景知识的机器人?本文介绍了一种名为藻类的方法(来自[对比]解释的自适应语言引导的处理),该方法在使用语言模型来迭代地识别所需的人类卑鄙的特征之间交替,然后识别出所需的人类卑鄙的特征,然后识别出标准的逆增强学习技术,将权重分配给这些特征。在各种模拟和现实世界机器人环境中进行的实验表明,藻类仅使用少量的示例来学习在可解释的特征上定义的可通用奖励功能。重要的是,藻类可以识别何时缺少功能,然后提取并定义这些功能而无需任何人类输入,从而可以快速有效地获得对用户行为的丰富表示形式。

自适应语言引导的对比解释的抽象

自适应语言引导的对比解释的抽象PDF文件第1页

自适应语言引导的对比解释的抽象PDF文件第2页

自适应语言引导的对比解释的抽象PDF文件第3页

自适应语言引导的对比解释的抽象PDF文件第4页

自适应语言引导的对比解释的抽象PDF文件第5页

相关文件推荐

1900 年
¥1.0
2023 年
¥2.0
2023 年
¥1.0
2024 年
¥1.0
2019 年
¥1.0
2021 年
¥2.0
2023 年
¥1.0
2021 年
¥17.0
2021 年
¥17.0
2021 年
¥17.0
2021 年
¥17.0
2016 年
¥9.0
2024 年
¥1.0