想象一个未来的家庭机器人,旨在快速准备突破。该机器人必须有效执行各种任务,例如在橱柜中进行库存检查,从冰箱中获取食物,从抽屉里收集餐具,以及在食物覆盖物下剩下的剩菜。取得成功的关键是与环境互动和探索环境的问题,尤其是找到不立即可见的项目。将其配备这种功能对于机器人有效完成其日常任务至关重要。机器人探索和积极的感知长期以来一直在挑战机器人技术[1-16]。已经提出了各种技术,包括信息理论,好奇心驱动的探索,基于边境的甲基动物和模仿学习[1,13 - 13 - 15,17 - 25]。然而,以前的研究主要集中在探索静态环境上,仅通过更改导航设置中的观点,或仅限于与一小部分对象类别(例如抽屉)或一组封闭的简单操作(例如推动)的相互作用[26]。在这项工作中,我们研究了交互式场景的利用任务,目标是有效地识别所有对象,包括直接可观察到的对象,以及只能通过机器人和环境之间的相互作用发现的对象(见图1)。朝向这个目标,我们提出了一个新颖的场景表示,称为“动作条件” 3D场景图(ACSG)。然后,我们证明可以将交互式场景探索作为动作条件的3D场景图形结构和遍历的问题。与这些与专注于编码静态关系的常规3D场景图不同,ACSG同时编码空间关系和逻辑关联指示动作效应(例如,打开冰箱内部揭示了一个苹果)。解决互动场景探索带来了挑战:我们如何推理需要探索哪些对象,选择与它们互动的正确动作,以及对我们的探索发现的知识?
我们介绍了一种大脑解码方法,用于使用自然场景数据集 (NSD) 分析对视觉感知的功能性反应,其中我们使用来自深度神经网络的图像的视觉特征作为解码目标。我们的方法在各种特征提取方法和受试者中都给出了一致的结果。在后续分类任务中使用生成的权重图,我们的方法实现了与直接训练的分类器类似的分类准确率,但由于不需要分类标签,因此适用性更广。我们表明,与基于分类的解码得出的权重图相比,我们生成的权重图与人类受试者的底层任务更加一致。这种灵活性使我们的方法适用于具有复杂刺激的多种解码风格分析,而手动标记可能会使结果产生偏差。
人类对世界的看法是由多种观点和方式塑造的。许多现有数据集从某个角度专注于场景理解(例如以中心的或第三人称的视图),我们的数据集提供了一个全景视角(即具有多种数据模式的多个观点)。具体而言,我们封装了第三人称全景和前视图,以及以富裕方式,包括视频,多频道音频,定向双耳延迟,位置数据数据和文本场景描述,在每个场景中,呈现世界的全面实现,呈现了全世界的全面实现。据我们所知,这是第一个涵盖具有多种数据模式的多个观点的数据库,以模仿现实世界中如何访问每日信息。 通过我们的基准分析,我们在建议的360+x数据集上介绍了5个不同的场景理解任务,以评估综合场景理解中每种数据模式和观点的影响和好处。 我们希望这个独特的数据集能够扩大理解场景的范围,并鼓励社区从更多样化的角度解决这些问题。据我们所知,这是第一个涵盖具有多种数据模式的多个观点的数据库,以模仿现实世界中如何访问每日信息。通过我们的基准分析,我们在建议的360+x数据集上介绍了5个不同的场景理解任务,以评估综合场景理解中每种数据模式和观点的影响和好处。我们希望这个独特的数据集能够扩大理解场景的范围,并鼓励社区从更多样化的角度解决这些问题。
3D场景图预测的当前方法依赖于标记的数据集来训练固定的对象类和关系类别的固定模型。我们提供Open3DSG,这是一种在开放世界中学习3D场景图预测的替代方法,而无需标记的场景图数据。我们将3D场景图预测主链的功能与功能性开放世界2D Vision Language Foundation Models的功能空间相结合。这使我们能够通过从开放的词汇查询对象类,并以零摄像的方式从3D点云中预测3D场景图,并从接地的LLM中预测与场景图fea的接地LLM相对的关系,并查询对象类作为上下文。Open3DSG是第一个3D点云方法,不仅可以预测显式开放式唱机对象类,而且还可以预测不限于预定标签集的开放式关系 - 使得在预测的3D场景图中表达稀有物以及特定的对象和关系。我们的实验表明,Open3DSG可以有效地预测Arbitary对象类别及其复杂的对象间关系,描述了空间,支持性,语义和比较关系。
摘要:为了指导果园管理机器人实现果园生产中的某些任务,例如自主导航和精确喷涂,这项研究提出了一个深入学习的网络,称为动态融合细分网络(DFSNET)。该网络包含局部特征聚合(LFA)层和动态融合分割体系结构。LFA层使用位置编码器进行初始转换嵌入,并通过多阶段层次结构逐渐汇总本地模式。Fusion分割模块(FUS-SEG)可以通过学习多插入空间来格式化点标签,而生成的标签可以进一步挖掘点云特征。在实验阶段,在果园田的数据集中证明了DFSNET的显着分割结果,其准确率为89.43%,MIOU率为74.05%。dfsnet优于其他语义细分网络,例如PointNet,PointNet ++,D-PointNet ++,DGCNN和Point-NN,其精度的提高了11.73%,3.76%,3.76%,2.36%,2.36%和2.74%,并分别为2.74%,并改善了这些网络,并改善了这些网络,并分别为28.3%,28.3%,9.9%,9.9%,9.9%,9.9%,9.9%,9.9%,占28.3%,占28.3%,占28.3%,分别为9.19%,分别为9.9%,均为28.3%,分别为9.3%,分别为2.19%。在全尺度数据集(简单尺度数据集 +复杂尺度数据集)上,分别为9.89和24.69%。提议的DFSNET可以从果园场景点云中捕获更多信息,并提供更准确的点云分割结果,这对果园的管理有益。
最近基于深度学习的多视图人检测(MVD)方法在现有数据集上显示出令人鼓舞的结果。但是,当前方法主要在具有数量有限的多视图框架和固定相机视图的小型单个场景上进行培训和评估。结果,这些方法可能不可行,可以在更大,更复杂的场景中检测出严重的阻塞和摄像机误差错误。本文着重于通过开发有监督的观点加权方法来改善多视图人的检测,该方法可以更好地融合大型场景下的多相机信息。此外,还采用了大型合成数据集来增强模型的概括性,并实现了更实际的评估和比较。通过简单的域适应技术进一步证明了模型在新测试场景上的性能。实验结果证明了我们方法在实现有希望的跨场所多视角人检测表现方面的有效性。
近年来,视觉语言预训练框架在自然语言过程和计算机视觉方面取得了重大进展,从而在各种下游任务上取得了显着的绩效提高。但是,当扩展到点云数据时,现有的作品主要集中在构建特定于任务的模型上,并且无法提取概括良好的Univer-Sal 3D视觉嵌入。我们仔细研究了语义3D场景理解中的三个常见任务,并获得了对训练模型的开发的关键见解。以这些观察的启发,我们提出了一个视觉语言的预训练框架 - 工作3DVLP(3D视觉语言预训练对象对比度学习),它可以灵活地对3D视觉 - 语言下游任务转移。3DVLP将视觉接地作为代理任务,并引入了对象级别引导检测(OID)损失,以在场景中获得高质量的建议。此外,我们设计对象级交叉对比度对齐(OCC)任务和对象级别的自我对比度学习(OSC)任务,以将对象与示例对齐并显然区分场景中的不同对象。广泛的实验验证了三个3D视觉任务上3DVLP的出色表现,反映了其在语义3D场景理解中的优势。代码可在https://github.com/iridescentttt/3dvlp上找到。
i。保持全球平均温度升至远低于2°C,并努力将温度升高限制在工业前水平高1.5°C时,ii。提高适应气候变化和促进气候韧性的不利影响的能力。蒂珀里县议会致力于这一挑战,尽管与蒂珀雷能源机构和other的利益相关者的合作关系已经成为协作和积极的气候行动的早期领导者,并且通过制定了这项蒂珀里县议会议会气候行动计划2024 - 2029(LACAP)(LACAP)的跨越跨越跨越其服务交付的Cli-Mate行动。lacap是根据环境,气候与通信部的地方当局气候行动指南准备的,2023年。每个lacap将推动在地方一级所需的适应和缓解措施,并使每个地方当局都能达到;
为了进一步缓解从单视输入中恢复3D形状的歧义,我们遵循Yu等人。[84]以实现单眼,正常和分割提示,以促进训练过程。但是,由于这些图像在3D-Front [19]数据集中不可用,因此我们使用场景的3D扫描,对象的3D CAD模型以及摄像机在数据集中提供的内在和外在的pa-rameters进行调整。pix3d [69]数据集提供实例分割,但缺乏深度和正常图像。由于渲染是不可能的,因此我们将估计的深度和正常地图用作最先进的估计器的伪基真实[17]。请注意,在训练阶段的过程中,深度,正常和分割信息仅用于指导模型的学习过程,而在推理阶段则无需。这种调查表明,我们的模型仍然灵活且适用于各种情况。
摘要 - 在室内移动的同时,感知具有多个对象的三维(3D)场景对于基于视觉的移动配件至关重要,尤其是对于增强其操纵任务的尤其是。在这项工作中,我们为具有双眼视觉的自我中心机器人提供了实例分割,特征匹配和点集注册的端到端管道,并通过拟议的管道展示了机器人的抓地力。首先,我们为单视图3D语义场景分割设计了一个基于RGB图像的分割方法,并利用2D数据集中的常见对象类将3D点封装在对象实例的点云中,通过相应的深度映射。接下来,根据先前步骤中匹配的RGB图像中感兴趣的对象之间的匹配关键,提取了两个连续的点云的3D对应关系。此外,要意识到3D特征分布的空间变化,我们还根据使用内核密度估计(KDE)的估计分布(KDE)来称量每个3D点对,随后可以使稳健性具有较小的中心范围,同时求解点云之间的刚性转换。最后,我们在7-DOF双臂Baxter机器人上测试了我们提出的管道,并使用安装的Intel Realsense D435i RGB-D相机测试了我们的管道。结果表明我们的机器人可以在移动时分割感兴趣的对象,注册多个视图,并掌握目标对象。源代码可在https://github.com/mkhangg/semantic Scene感知上获得。