一种更快的机器人教学方法

一项新技术可帮助非技术用户了解机器人失败的原因,然后以最小的努力对其进行微调,以有效地执行任务。

来源:MIT新闻 _机器人

想象一下购买一个机器人来执行家务。这个机器人是在工厂里制造和训练的,用于执行一组特定的任务,它从未见过你家里的物品。当你让它从厨房桌子上拿起一个杯子时,它可能无法识别你的杯子(可能是因为这个杯子上画着一个不寻常的图像,比如麻省理工学院的吉祥物 Tim the Beaver)。所以,机器人失败了。

“现在,我们训练这些机器人的方式是,当它们失败时,我们真的不知道原因。所以你只能举手说,‘好吧,我想我们必须重新开始。’这个系统缺少的一个关键组件是让机器人演示它失败的原因,以便用户可以给它反馈,”麻省理工学院电气工程和计算机科学 (EECS) 研究生 Andi Peng 说。

Peng 和她在麻省理工学院、纽约大学和加州大学伯克利分校的同事创建了一个框架,使人类能够以最少的努力快速教会机器人他们想让它做什么。

框架

当机器人失败时,系统使用算法​​生成反事实解释,描述机器人成功需要改变什么。例如,如果杯子是某种颜色,机器人可能能够拿起杯子。它向人类展示这些反事实,并要求人类反馈机器人失败的原因。然后,系统利用这些反馈和反事实解释来生成新数据,用于微调机器人。

微调涉及调整已经训练过执行一项任务的机器学习模型,以便它可以执行第二项类似的任务。

研究人员在模拟中测试了这项技术,发现它可以比其他方法更有效地教导机器人。使用该框架训练的机器人表现更好,而训练过程消耗的人的时间更少。

在职培训

在职培训

从人类推理到机器人推理

从人类推理到机器人推理