最近的研究表明,选择性预测系统具有潜在的优势,当人工智能的预测不可靠时,该系统可以学会听从人类的预测,尤其是在提高人工智能系统在医疗保健或保护等高风险应用中的可靠性方面。然而,大多数先前的研究都假设,当人类作为人机团队的一员而不是自己解决预测任务时,人类的行为保持不变。我们通过进行实验来量化选择性预测背景下的人机交互,表明情况并非如此。特别是,我们研究了向人类传达有关人工智能系统推迟决定的不同类型信息的影响。使用现实世界的保护数据和选择性预测系统(与人类或人工智能系统单独工作相比,该系统的预期准确度有所提高),我们表明这种信息传递对人类判断的准确性有显著影响。我们的结果研究了信息传递策略的两个组成部分:1) 人类是否被告知人工智能系统的预测;2) 人类是否被告知选择性预测系统的推迟决定。通过操纵这些消息传递组件,我们表明,通过向人类告知推迟的决定,但不透露人工智能的预测,可以显著提高人类的表现。因此,我们表明,在设计选择性预测系统时,考虑如何将推迟的决定传达给人类是至关重要的,并且必须使用人在环框架仔细评估人机团队的综合准确性。
摘要 — 构建用于通过任意、高维、嘈杂的输入(例如,网络摄像头的眼部注视图像)控制机器人的辅助界面可能具有挑战性,尤其是在没有自然的“默认”界面的情况下推断用户期望的操作时。通过在线用户对系统性能的反馈进行强化学习为这个问题提供了一个自然的解决方案,并使界面能够适应个人用户。然而,这种方法往往需要大量的人在环训练数据,尤其是在反馈稀疏的情况下。我们提出了一种从稀疏用户反馈中有效学习的分层解决方案:我们使用离线预训练来获取有用的高级机器人行为的潜在嵌入空间,这反过来又使系统能够专注于使用在线用户反馈来学习从用户输入到期望的高级行为的映射。关键见解是,使用预训练策略可使系统从稀疏奖励中学到比单纯的强化学习算法更多的知识:使用预训练策略,系统可以利用成功的任务执行来重新标记用户在未成功执行期间实际想要做的事情。我们主要通过一项用户研究来评估我们的方法,该研究有 12 名参与者,他们使用网络摄像头和他们的目光在三个模拟机器人操作领域执行任务:拨动电灯开关、打开架子门以接触里面的物体以及旋转阀门。结果表明,我们的方法在不到 10 分钟的在线训练中成功地学会了从稀疏奖励中将 128 维凝视特征映射到 7 维关节扭矩,并无缝帮助采用不同凝视策略的用户,同时适应网络摄像头输入、任务和环境的分布变化。