规划复杂视觉任务的更好方法

一种新的混合系统可以帮助机器人在不断变化的环境中导航或提高多机器人装配团队的效率。

来源:MIT新闻 - 人工智能

麻省理工学院的研究人员开发了一种生成人工智能驱动的方法,用于规划长期视觉任务(例如机器人导航),其效率大约是某些现有技术的两倍。

他们的方法使用专门的视觉语言模型来感知图像中的场景并模拟实现目标所需的动作。然后,第二个模型将这些模拟转换为用于规划问题的标准编程语言,并完善解决方案。

最后,系统自动生成一组文件,这些文件可以输入到经典规划软件中,该软件计算实现目标的计划。这个两步系统生成的计划平均成功率约为 70%,优于只能达到 30% 左右的最佳基线方法。

重要的是,该系统可以解决以前从未遇到过的新问题,使其非常适合条件可能随时发生变化的真实环境。

“我们的框架结合了视觉语言模型的优势(例如理解图像的能力)和正式求解器的强大规划能力,”麻省理工学院航空航天 (AeroAstro) 研究生、该技术的一篇开放获取论文的主要作者 Yilunhao 说道。 “它可以拍摄单个图像并通过模拟将其移动,然后移动到可靠的长期计划,这在许多现实生活应用中可能有用。”

麻省理工学院信息与决策系统实验室 (LIDS) 的研究生 Yongchao Chen 与她一起撰写了这篇论文; Chuchu Fan,AeroAstro 副教授,LIDS 首席研究员;麻省理工学院-IBM沃森人工智能实验室的研究科学家杨张。该论文将在国际学习表征会议上发表。

处理视觉任务

“生成器和模拟器协同工作,能够达到完全相同的结果,这就是达到目标的动作模拟,”Hao 说。

灵活的方法