摘要 — 构建用于通过任意、高维、嘈杂的输入(例如,网络摄像头的眼部注视图像)控制机器人的辅助界面可能具有挑战性,尤其是在没有自然的“默认”界面的情况下推断用户期望的操作时。通过在线用户对系统性能的反馈进行强化学习为这个问题提供了一个自然的解决方案,并使界面能够适应个人用户。然而,这种方法往往需要大量的人在环训练数据,尤其是在反馈稀疏的情况下。我们提出了一种从稀疏用户反馈中有效学习的分层解决方案:我们使用离线预训练来获取有用的高级机器人行为的潜在嵌入空间,这反过来又使系统能够专注于使用在线用户反馈来学习从用户输入到期望的高级行为的映射。关键见解是,使用预训练策略可使系统从稀疏奖励中学到比单纯的强化学习算法更多的知识:使用预训练策略,系统可以利用成功的任务执行来重新标记用户在未成功执行期间实际想要做的事情。我们主要通过一项用户研究来评估我们的方法,该研究有 12 名参与者,他们使用网络摄像头和他们的目光在三个模拟机器人操作领域执行任务:拨动电灯开关、打开架子门以接触里面的物体以及旋转阀门。结果表明,我们的方法在不到 10 分钟的在线训练中成功地学会了从稀疏奖励中将 128 维凝视特征映射到 7 维关节扭矩,并无缝帮助采用不同凝视策略的用户,同时适应网络摄像头输入、任务和环境的分布变化。
主要关键词