规划复杂视觉任务的更好方法 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

规划复杂视觉任务的更好方法

2026年3月11日 00:00 33 Comments

一种新的混合系统可以帮助机器人在不断变化的环境中导航或提高多机器人装配团队的效率。

来源:MIT新闻 - 人工智能

麻省理工学院的研究人员开发了一种生成人工智能驱动的方法，用于规划长期视觉任务（例如机器人导航），其效率大约是某些现有技术的两倍。

他们的方法使用专门的视觉语言模型来感知图像中的场景并模拟实现目标所需的动作。然后，第二个模型将这些模拟转换为用于规划问题的标准编程语言，并完善解决方案。

最后，系统自动生成一组文件，这些文件可以输入到经典规划软件中，该软件计算实现目标的计划。这个两步系统生成的计划平均成功率约为 70%，优于只能达到 30% 左右的最佳基线方法。

重要的是，该系统可以解决以前从未遇到过的新问题，使其非常适合条件可能随时发生变化的真实环境。

“我们的框架结合了视觉语言模型的优势（例如理解图像的能力）和正式求解器的强大规划能力，”麻省理工学院航空航天 (AeroAstro) 研究生、该技术的一篇开放获取论文的主要作者 Yilunhao 说道。 “它可以拍摄单个图像并通过模拟将其移动，然后移动到可靠的长期计划，这在许多现实生活应用中可能有用。”

麻省理工学院信息与决策系统实验室 (LIDS) 的研究生 Yongchao Chen 与她一起撰写了这篇论文； Chuchu Fan，AeroAstro 副教授，LIDS 首席研究员；麻省理工学院-IBM沃森人工智能实验室的研究科学家杨张。该论文将在国际学习表征会议上发表。

处理视觉任务

“生成器和模拟器协同工作，能够达到完全相同的结果，这就是达到目标的动作模拟，”Hao 说。

灵活的方法

可靠的图像两倍规划软件相同的模拟人工智能语言驱动的输入航空航天规划问题协同工作实验室科学家技术的 LIDS 系统生成现有技术任务重要的论文专门的视觉所需的灵活的决策系统 AeroAstro 变化的目标的达到模拟器方法研究人员模型的编程语言实验室的达到目标研究员线方法麻省理工学院用于机器人文件实现目标

规划复杂视觉任务的更好方法

其他外部链接

Tags

XiaoMi-AI