摘要 - 为了充分利用移动操纵机器人的功能,必须在大型未探索的环境中自主执行的长途任务。虽然大型语言模型(LLMS)已显示出关于任意任务的紧急推理技能,但现有的工作主要集中在探索的环境上,通常集中于孤立的导航或操纵任务。在这项工作中,我们提出了MOMA-LLM,这是一种新颖的方法,该方法将语言模型基于从开放式摄影场景图中得出的结构化表示形式,随着环境的探索而动态更新。我们将这些表示与以对象为中心的动作空间紧密地交织在一起。重要的是,我们证明了MOMA-LLM在大型现实室内环境中新型语义交互式搜索任务中的有效性。最终的方法是零拍摄,开放式摄影库,并且可以易于扩展到一系列移动操作和家用机器人任务。通过模拟和现实世界中的广泛实验,与传统的基线和最新方法相比,我们证明了搜索效率的显着提高。我们在http://moma-llm.cs.uni-freiburg.de上公开提供代码。
摘要 - 在室内移动的同时,感知具有多个对象的三维(3D)场景对于基于视觉的移动配件至关重要,尤其是对于增强其操纵任务的尤其是。在这项工作中,我们为具有双眼视觉的自我中心机器人提供了实例分割,特征匹配和点集注册的端到端管道,并通过拟议的管道展示了机器人的抓地力。首先,我们为单视图3D语义场景分割设计了一个基于RGB图像的分割方法,并利用2D数据集中的常见对象类将3D点封装在对象实例的点云中,通过相应的深度映射。接下来,根据先前步骤中匹配的RGB图像中感兴趣的对象之间的匹配关键,提取了两个连续的点云的3D对应关系。此外,要意识到3D特征分布的空间变化,我们还根据使用内核密度估计(KDE)的估计分布(KDE)来称量每个3D点对,随后可以使稳健性具有较小的中心范围,同时求解点云之间的刚性转换。最后,我们在7-DOF双臂Baxter机器人上测试了我们提出的管道,并使用安装的Intel Realsense D435i RGB-D相机测试了我们的管道。结果表明我们的机器人可以在移动时分割感兴趣的对象,注册多个视图,并掌握目标对象。源代码可在https://github.com/mkhangg/semantic Scene感知上获得。
jia-mu Sun和Lin Gao也与中国科学院一起。Kaichun Mo也在NVIDIA研究中。 这项工作得到了中国国家自然科学基金会的支持( 62322210),北京市政自然科学基金会(No. ) JQ21013)和北京市政科学技术委员会(编号 Z231100005923031)。 Kaichun Mo和Leonidas J. Guibas得到了ARL Grant W911NF-21-2-0104,Vannevar Bush教师奖学金和Adobe Corporation的礼物。 作者的地址:J.-M。 Sun,J。Yang和L. Gao(通讯作者),北京移动计算和普遍设备的主要实验室,中国科学院计算机科学研究所,北京,中国100190;电子邮件:{sunjiamu21s,yangjie01,gaolin}@ict.ac.cn;斯坦福大学的计算机科学系K.电子邮件:{kaichun,guibas }@cs.stanford.edu; Y.-K。莱,计算机科学学院和Kaichun Mo也在NVIDIA研究中。这项工作得到了中国国家自然科学基金会的支持(62322210),北京市政自然科学基金会(No.JQ21013)和北京市政科学技术委员会(编号Z231100005923031)。Kaichun Mo和Leonidas J. Guibas得到了ARL Grant W911NF-21-2-0104,Vannevar Bush教师奖学金和Adobe Corporation的礼物。作者的地址:J.-M。 Sun,J。Yang和L. Gao(通讯作者),北京移动计算和普遍设备的主要实验室,中国科学院计算机科学研究所,北京,中国100190;电子邮件:{sunjiamu21s,yangjie01,gaolin}@ict.ac.cn;斯坦福大学的计算机科学系K.电子邮件:{kaichun,guibas }@cs.stanford.edu; Y.-K。莱,计算机科学学院和
图2。我们的RoboExp系统的概述。我们介绍了由四个模块组成的RoboExp系统的全面概述。(a)我们的感知模块将RGBD图像作为输入,并产生相应的2D边界框,掩码,对象标签和关联的语义特征作为输出。(b)内存模块无缝将2D信息集成到3D空间中,从而实现了更一致的3D实例分割。此外,它通过合并实例构建了我们ACSG的高级图。(c)我们的决策模块是提议者和验证者的双重角色。提案者建议各种行动,例如开门和抽屉,而验证者评估每个动作的可行性,考虑到阻塞等因素。(d)动作模块执行提出的操作,使机器人组能够与环境有效相互作用。
场景意象在我们回忆自传体记忆、想象未来和在世界中探索时起着重要作用。因此,在本研究中,我们试图更好地了解大脑如何支持场景表征。处理场景涉及各种认知过程,这些过程在现实世界中具有高度交互性。然而,在这里,我们的目标是分离语义和空间构造场景过程,以便识别每个过程特有的大脑区域、它们共同拥有的区域以及区域之间的连接。为此,参与者在功能性磁共振成像期间搜索场景中的语义或空间构造不可能性。我们只关注那些可能的场景,从而消除任何会引起惊讶或新奇等反应的错误检测。重要的是,我们还在参与者之间平衡了可能的场景,使我们能够在两种不同条件下检查相同可能场景图像的大脑活动和连接性。我们发现参与者在每种条件下都采用了不同的认知策略,这反映在不同的眼球运动行为中。这些反过来又与颞叶外侧皮层和顶叶皮层在语义场景处理中的参与度增加、海马体在空间构造场景处理中的参与度增加以及腹内侧前额叶皮层 (vmPFC) 的激活度增加有关,腹内侧前额叶皮层 (vmPFC) 是两者共有的。连接性分析表明,vmPFC 根据手头的任务在语义和空间构造大脑网络之间切换。这些发现进一步强调了颞叶外侧区域众所周知的语义功能,同时为先前断言的海马体对场景构造的贡献提供了额外的支持,以及最近提出的 vmPFC 可能在协调场景处理中发挥关键作用的建议。
摘要:如今,由于人类不负责任,不可预测的气候波动以及家庭和工业环境,火灾事件定期发生。本研究描述了使用人工智能来识别火灾事件的消防机器人,并有能力远程射击,从而最大程度地降低了消防战士的风险。消防机器人根据用户监督和基于传感器的输入的组合进行移动。软件包括集成跟踪,火焰检测,避免障碍物和灭火。可以通过连接到消防软管的伺服电机来调节喷水的方向和量。在最后阶段,使用模拟的消防试验环境来评估消防机器人的性能。在对受灾地区进行自主检查期间,消防机器人有能力实时识别火焰,通过灭火系统启动自动灭火,并在最初的阶段管理火。
自动驾驶汽车(AV)应为我们的最终地面运输形式。无疑,要实现完全自主驾驶还有很长的路要走。然而,我们对AV的探索的历史也很长,可以追溯到1920年代的第一个繁荣时期[1]。从技术上讲,早期的尝试不是自动驾驶,而是在某种程度上是遥控的,这只是将驾驶员移开车辆。当时,此任务需要集成同样智能的车辆和道路[2]。标志性的开创性实验之一发生在1950年代;通用汽车将电路嵌入公共高速公路的一部分,以展示自我引导系统[3];尽管自动驾驶系统不在汽车内部,但它实现了AV的基本图像。通用电动机的实验反映了当时的研究浓度,AVS使用道路干扰车辆的行为以实现自动驾驶并消除驾驶员错误[4]。20世纪下半叶,综合电路的兴起将AV研究的范围从建造所谓的道路转变为开发智能车辆,因为计算机和传感器足够小,可以在普通的生产车中使用。计算机视觉和机器学习的出现标志着AV的快速进步,这被视为独立的运输能够感知环境并浏览多种传感器读数。对AV的期望正在解决与普通车辆相关的问题问题,包括污染,拥塞和交通总额[5]。随着AV的自动化和智力的发展,研究人员提出了超过技术观点的关注[6]。在所有道德和道德问题中,AV的安全引起了最大的关注[7]。安全的承诺要求AV技术已提高并与所有功能视角集成在一起,这些视角被归类为工作中的四个障碍[8]:感知,计划和决策,措施,动力和车辆控制以及系统监督。本文的重点是AV的感知能力。尽管AV的历史已经准备好了几十年,但AV感知的视野模棱两可,并且随着新兴技术的发展而发展。在一开始,感知通过分析AV和其他物体的距离来驱散周围环境的地图扮演辅助作用[9]。例如,同时定位和映射(SLAM)算法模糊了感知和映射之间的边界。但是,由于计算机视觉技术的快速发展,AVS的感知定义正在发展。快速而精确的对象检测和分类功能导致了整合感知和计划/决策阶段的建议。工作[10]是一种著名的早期尝试,它采用了整合思想,名为“直接感知”范式。与我所介绍的感知[11]和行为反射感知[12]相比,在本文中提到的直接掌握将更多的计算资源分配给环境感知,并旨在通过很少的经典映射和本地化阶段实现自主驾驶。工作的本质[10]是基于卷积神经网络(CNN)模型,该模型将图像映射到几个关键的预测指标,例如车辆对道路的方向以及与其他与道路相关的物体的距离。显然,由于神经网络在早期的局限性上,该建议是解析整个场景(介导的感知)和将图像直接映射到驾驶动作(行为反射感知)之间的贸易。因此,全局映射和本地化仍然存在于其过程中。尽管如此,直接受访方法激发了研究人员在AV感知领域中利用深度学习技术的潜力的兴趣[13]。
摘要 - 空中机器人在各种应用中起着至关重要的作用,在各种应用中,机器人对环境的意识是基本需求。作为一种用例,在受GPS贬低的环境中的无人机需要配备不同的传感器(例如,视觉传感器),这些传感器在执行姿势估计和本地化时提供了可靠的传感结果。在本文中,针对了安装在无人机上的摄像头,重建室内环境的地图,以生成3D场景图,以进行高级表示。因此,建造并使用配备了配套计算机和RGB-D相机的空中机器人与作者提出的同时定位和映射(VSLAM)框架合适地集成在一起。在重建地图,各种结构元素(包括门和墙壁)的同时提高机器人的情境意识,上面标有印刷的信托标记,其中拓扑关系的词典被馈送到了系统中。VSLAM系统检测标记并重建室内区域的地图,并具有更高级别的语义实体,包括走廊和房间。另一个成就是生成基于多层视力的情境图,其中包含室内环境的增强分层表示。在这方面,将VSLAM集成到所采用的无人机中是本文为GPS污染环境提供端到端机器人应用程序的主要目标。为了显示系统的实用性,已经在具有不同结构布局的室内场景中进行了各种现实状况实验。评估表明,提议的无人机应用程序可以进行足够的W.R.T.地面真相数据及其基线。
生成的神经辐射场(NERF)通过学习一组未经未介绍的图像的分布来综合多视图图像,表现出非常熟练的熟练程度。尽管现有的生成nerf具有在数据分布中生成3D一致的高质量随机样本的才能,但创建单数输入图像的3D表示仍然是一个巨大的挑战。在此手稿中,我们介绍了Zignerf,这是一种创新的模型,该模型执行零击生成的对抗网(GAN)倒置,以从单个脱离分布图像中生成多视图。该模型的基础是一个新型逆变器的基础,该逆变器映射到了发电机歧管的潜在代码中。毫无意义,Zignerf能够将对象从背景中解散并执行3D操作,例如360度旋转或深度和水平翻译。使用多个实数数据集对我们的模型的效率进行验证:猫,AFHQ,Celeba,Celeba-HQ和Compcars。
近年来,文本图像联合预训练技术在各种任务中显示出令人鼓舞的结果。然而,在光学特征识别(OCR)任务中,将文本实例与图像中的相应文本区域对齐是一个挑战,因为它需要在文本和OCR文本之间有效地对齐(将图像中的文本称为ocr-文本以与自然语言中的文本区分开来),而不是对整体图像内容的全面理解。在本文中,我们提出了一种新的预训练方法,称为o cr-text d估计化m odeling(ODM),该方法根据文本提示将图像中的文本样式传输到统一样式中。使用ODM,我们在文本和OCR文本之间实现了更好的对齐方式,并启用预训练的模型以适应场景文本的复杂和多样化的样式。此外,我们为ODM设计了一种新的标签生成方法,并将其与我们提出的文本控制器模块相结合,以应对OCR任务中注释成本的挑战,并以大量未标记的数据参与预培训。在多个Pub-LIC数据集上进行的广泛实验表明,我们的方法显着地证明了性能,并且在场景文本检测和发现任务中的当前预训练方法优于当前的预训练方法。代码在ODM上可用。