摘要:我们介绍了交互式场景探索的新颖任务,其中机器人自主探索环境并产生一个动作条件的场景图(ACSG),该图形图(ACSG)捕获了基础环境的结构。ACSG在场景中既说明了低级信息(几何和语义)以及高级信息(不同实体之间的动作条件关系)。为此,我们提出了机器人探索(RoboExp)系统,该系统结合了大型多模型(LMM)和明确的内存设计,以增强我们的系统功能。机器人的原因以及如何探索对象,通过交互过程累积新信息,并逐步构建ACSG。利用构造的ACSG,我们说明了机器人系统系统在促进涉及涉及刚性,清晰的对象,嵌套对象和可变形对象的各种真实的操纵任务方面的有效性和效率。项目页面:https://jianghanxiao.github.io/roboexp-web/
图2。我们的RoboExp系统的概述。我们介绍了由四个模块组成的RoboExp系统的全面概述。(a)我们的感知模块将RGBD图像作为输入,并产生相应的2D边界框,掩码,对象标签和关联的语义特征作为输出。(b)内存模块无缝将2D信息集成到3D空间中,从而实现了更一致的3D实例分割。此外,它通过合并实例构建了我们ACSG的高级图。(c)我们的决策模块是提议者和验证者的双重角色。提案者建议各种行动,例如开门和抽屉,而验证者评估每个动作的可行性,考虑到阻塞等因素。(d)动作模块执行提出的操作,使机器人组能够与环境有效相互作用。
想象一个未来的家庭机器人,旨在快速准备突破。该机器人必须有效执行各种任务,例如在橱柜中进行库存检查,从冰箱中获取食物,从抽屉里收集餐具,以及在食物覆盖物下剩下的剩菜。取得成功的关键是与环境互动和探索环境的问题,尤其是找到不立即可见的项目。将其配备这种功能对于机器人有效完成其日常任务至关重要。机器人探索和积极的感知长期以来一直在挑战机器人技术[1-16]。已经提出了各种技术,包括信息理论,好奇心驱动的探索,基于边境的甲基动物和模仿学习[1,13 - 13 - 15,17 - 25]。然而,以前的研究主要集中在探索静态环境上,仅通过更改导航设置中的观点,或仅限于与一小部分对象类别(例如抽屉)或一组封闭的简单操作(例如推动)的相互作用[26]。在这项工作中,我们研究了交互式场景的利用任务,目标是有效地识别所有对象,包括直接可观察到的对象,以及只能通过机器人和环境之间的相互作用发现的对象(见图1)。朝向这个目标,我们提出了一个新颖的场景表示,称为“动作条件” 3D场景图(ACSG)。然后,我们证明可以将交互式场景探索作为动作条件的3D场景图形结构和遍历的问题。与这些与专注于编码静态关系的常规3D场景图不同,ACSG同时编码空间关系和逻辑关联指示动作效应(例如,打开冰箱内部揭示了一个苹果)。解决互动场景探索带来了挑战:我们如何推理需要探索哪些对象,选择与它们互动的正确动作,以及对我们的探索发现的知识?