详细内容或原文请订阅后点击阅览
机器人助手犯错误?只是向正确的方向推动
新的研究可以允许一个人使用他们给出另一个人的反馈来实时纠正机器人的行动。
来源:MIT新闻 - 人工智能想象机器人正在帮助您清洁菜肴。您要求它从水槽里拿出一个肥皂碗,但握把略微错过了标记。
使用MIT和NVIDIA研究人员开发的新框架,您可以通过简单的交互来纠正机器人的行为。该方法将使您可以指向碗或在屏幕上追踪轨迹,或者只需向机器人的手臂朝正确的方向推动。
与纠正机器人行为的其他方法不同,此技术不需要用户收集新数据并重新训练为机器人大脑提供动力的机器学习模型。它使机器人能够使用直观的实时人类反馈来选择可行的动作序列,该序列尽可能接近以满足用户的意图。
研究人员测试了他们的框架时,其成功率比不利用人类干预措施的替代方法高21%。
从长远来看,该框架可以使用户更容易地引导经过工厂培训的机器人执行各种家庭任务,即使机器人从未见过他们的房屋或其中的对象。
“我们不能指望外行人可以执行数据收集并微调神经网络模型。消费者将期望机器人开箱即用,如果不这样做,他们希望有一种直观的机制来自定义。这是我们在这项工作中面临的挑战。”电气工程和计算机科学(EECS)研究生兼有关此方法论文的首席作者Felix Yanwei Wang说。
有关此方法的论文缓解未对准
最近,研究人员已经开始使用预先训练的生成AI模型来学习“政策”或一套机器人遵循的规则以完成诉讼。生成模型可以解决多个复杂的任务。
在训练过程中,该模型仅看到可行的机器人运动,因此它学习生成有效的轨迹供机器人遵循。
取得成功