新方法使用众包反馈来帮助训练机器人

人类引导探索 (HuGE) 使 AI 代理能够在人类的帮助下快速学习,即使人类会犯错误。

来源:MIT新闻 _机器人

要教AI代理一项新任务,例如如何打开厨房橱柜,研究人员经常使用强化学习,这是一个试验和错误的过程,在该过程中,代理人采取行动使其更接近目标。

在许多情况下,人类专家必须仔细设计奖励功能,这是一种激励机制,可以赋予代理商的探索动机。人类专家必须迭代地更新该奖励功能,因为代理商探索并尝试了不同的行动。这可能很耗时,效率低下且难以扩展,尤其是当任务复杂并且涉及许多步骤时。

来自麻省理工学院,哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法,不依赖于专业设计的奖励功能。取而代之的是,它利用了许多非XPERT用户收集的众包反馈,以指导代理商学会达到目标。

虽然其他一些方法也尝试利用非反馈反馈,但这种新方法使AI代理可以更快地学习,尽管从用户那里的数据众群通常充满了错误。这些嘈杂的数据可能导致其他方法失败。

此外,这种新方法允许异步收集反馈,因此世界各地的非XPERT用户可以为教师提供教学。

将来,这种方法可以帮助机器人快速在用户家中执行特定任务,而无需所有者显示每个任务的机器人物理示例。该机器人可以自己探索,众包的非反馈指导其探索。

“在我们的方法中,奖励功能指导代理商应该探索的内容,而不是确切地告诉它应该采取什么措施来完成任务。因此,即使人类的监督有些不准确和嘈杂,代理商仍然能够探索,这有助于它更好地学习。