摘要 - 隐式表示,例如神经辐射场(NERF),可以通过连续的神经功能在3D场景中绘制颜色,密度和语义。但是,这些模型通常需要手动和仔细的人类数据收集进行培训。本文解决了自主nerf构造的主动探索问题。我们研究代理如何学会有效地探索未知的3D环境,以便在自主性过程中收集的数据能够学习高质量的神经隐式图表示。在四个与机器人相关的下游任务上评估了所学代表的质量:经典的观点渲染,地图重建,计划和姿势改进。我们比较了不同的探索策略的影响,包括基于前沿的基于基础和学习的方法(端到端和模块化)以及针对此问题量身定制的不同奖励功能。经验结果表明,可以使用在看不见的环境中使用一集经验对积极收集的数据进行培训,并且Autonerf是一种经过加固学习训练的模块化勘探策略,使得获得了高质量的NERF,以获得高质量的NERF,以实现经过考虑的下游机器人任务。最后,我们证明,使用Autonerf可以将代理部署到以前未知的场景中,然后通过通过勘探,重建和策略填充的循环来适应场景来自动改善其导航性能。
摘要 - 随着大型语言模型(LLM),视觉模型(VLM)和其他一般基础模型的最新兴起,多模式,多任务体现的代理的潜力越来越大,可以在不同的环境中以自然语言作为输入来运作。一个这样的应用区是使用自然语言说明的室内导航。尽管最近进展,但由于所需的空间推理和语义理解,该问题仍然具有挑战性,尤其是在可能包含许多属于细粒类的对象的任意场景中。为了应对这一挑战,我们策划了3D场景(VLA-3D)的视觉和语言引导动作的最大现实世界数据集(VLA-3D),包括超过11.5k的现有数据集中的3D室内室内室内,2350万个启发式化的启发式化的启发式语义生成的语义关系,对象之间,综合构成了综合典型的参考性。我们的数据集由处理过的3D点云,语义对象和房间注释,场景图,可通航的自由空间注释以及参考语言语句,这些语言语言专门针对独立于视图的空间关系,以消除歧义对象。这些功能的目标是专门帮助导航的下游任务,尤其是在现实系统中,必须在不断变化的场景和不完美的语言的开放世界中保证某种级别的鲁棒性。我们还旨在使该数据集有助于开发交互式代理,这些互动代理都可以响应命令并提出有关场景的问题并回答问题。我们使用当前的最新模型基准测试数据集,以获得性能基线。所有要生成和可视化数据集的代码均公开发布1。随着该数据集的发布,我们希望为语义3D场景中的进度提供资源,这对变化是可靠的,这将有助于开发交互式室内导航系统。
6。在适当的情况下,使用详细的书面报告,照片和图表记录证据恢复和处理犯罪现场。7。保护犯罪现场免受污染。8。在犯罪现场处理技术,证据收集和保存方法方面的证词和法院提供可信的专家证词。根据需要准备报告,照片,图表和其他视觉助手。9。检查并卸下枪支。10。执行案例的技术/行政评论。11。位置需要打个电话状态。保持可靠且可预测的出勤率。必须具有必要的加班,灵活的时间,夜晚,周末和/或假期的强制性加班能力。12。必须具有在所有类型的天气条件下处理犯罪场景的能力。13。现任者有望继续通过研究,参加教育会议,相关课程或讲习班,并保持最新的国家麻醉趋势和安全预防措施以进行恢复和测试。14。必须能够在所有环境中佩戴APR/SCBA时正确地戴和DOFF个人防护设备并执行艰巨的任务。15。根据需要执行相关职责。16。此类规范不应被解释为包容性。旨在确定此工作的基本功能和要求。可以要求任职者执行与工作相关的职责和任务,而不是本规范中所述的任务。如果任职者/申请人无法执行该功能或要求,则该类别的任何基本功能或要求将根据2008年《美国残疾人法》(ADA)的修订(ADAAA)修订(ADAAA)修订;以及《密苏里人权法》(MHRA)。
为了进一步缓解从单视输入中恢复3D形状的歧义,我们遵循Yu等人。[84]以实现单眼,正常和分割提示,以促进训练过程。但是,由于这些图像在3D-Front [19]数据集中不可用,因此我们使用场景的3D扫描,对象的3D CAD模型以及摄像机在数据集中提供的内在和外在的pa-rameters进行调整。pix3d [69]数据集提供实例分割,但缺乏深度和正常图像。由于渲染是不可能的,因此我们将估计的深度和正常地图用作最先进的估计器的伪基真实[17]。请注意,在训练阶段的过程中,深度,正常和分割信息仅用于指导模型的学习过程,而在推理阶段则无需。这种调查表明,我们的模型仍然灵活且适用于各种情况。
[dbscan] Ester等。:“一种基于密度的算法,用于在具有噪声的大空间数据库中发现簇”。:KDD,1996年。[DGCNN] Wang等。:“用于在点云上学习的动态图CNN”。in :( tog),2019年。[Kabsch] W. Kabsch:“解决两组向量的最佳旋转解决方案”。in:晶体物理学,衍射,理论和一般晶体学,1976年。[Hregnet] Lu等。:“ Hregnet:用于大规模室外激光点云注册的分层网络”。in:(iccv),2021。[Randla-net] Hu等。:“ randla-net:大规模点云的有效语义分割”。in:(cvpr),2020。[Stereokitti] Menze等。:“自动驾驶汽车的对象场景流”。in:(cvpr),2015年。[Lidarkitti] Geiger等。:“我们准备好进行自动驾驶了吗?Kitti Vision基准套件”。in:(cvpr),2012年。[Semkitti] Behley等。:“ Semantickitti:用于LIDAR序列的语义场景的数据集”。in:(ICCV),2019年。[FT3DS] Mayer等。:“一个大型数据集来训练卷积网络以差异,光流和场景流量估计”。in:(cvpr),2016年。[pointpwc-net] Wu等。:“ PointPWC-NET:(自我监督场景流估计)点云上的成本量”。在:(ECCV),2020年。[FlowStep3d] Kittenplon等。:“ FlowStep3d:自我监督场景流估计的模型展开”。in:(cvpr),2021。[RMS-FLOWNET] Battrawy等。:“ RMS-FLOWNET:大规模点云的高效且稳健的多尺度场景流程估计”。in:(icra),2022。[WM3D] Wang等。:“对于3D场景流网络重要的东西”。in:(ECCV),2022。[Bi-Pointflownet] W. Cheng和J. Hwan Ko:“基于点云的场景流估计的双向学习”。in:(ECCV),2022。[Chodosh等人]Chodosh等。:“重新评估激光雷达场景以进行自动驾驶”。in:arxiv,2023。[WSLR] Gojcic等人。:“严格3D场景流的弱监督学习”。in:(cvpr),2021。[ERC] Dong等。 :“利用震子场景流量估计的刚性约束”。 in:(cvpr),2022。[ERC] Dong等。:“利用震子场景流量估计的刚性约束”。in:(cvpr),2022。
驾驶是一项复杂的活动,需要仔细计划和持续关注。人类驾驶员根据观察结果,过去的经验以及对潜在情景和必要行动的期望来分析其周围环境。尽管对观测数据进行了自动驾驶培训,但它们面临着陌生,不确定和冒险的驾驶情况的挑战。这些车辆在具有各种元素的环境中运行,例如交通标志,行人和其他车辆。了解这些要素之间的关系和互动对于在不同情况下理解自动驾驶汽车的行为至关重要。要实现5级完整驾驶自动化,这需要一个能够在没有人工干预的情况下处理所有驾驶任务的系统,人工智能(AI)模型需要高质量的表示,发现以及对驾驶场景中元素之间因果关系的理解1。在因果关系(CBN)[1]中表达的对因果关系的理解将受益于知识图(kg)中的明确表示。这个想法提出了许多重要的研究问题。在驾驶场景中,基于CBN的因果关系可以帮助理解广告场景吗?可以在KG中使用基于CBN的因果表示执行干预和反事实推理,例如确定特定的
i。保持全球平均温度升至远低于2°C,并努力将温度升高限制在工业前水平高1.5°C时,ii。提高适应气候变化和促进气候韧性的不利影响的能力。蒂珀里县议会致力于这一挑战,尽管与蒂珀雷能源机构和other的利益相关者的合作关系已经成为协作和积极的气候行动的早期领导者,并且通过制定了这项蒂珀里县议会议会气候行动计划2024 - 2029(LACAP)(LACAP)的跨越跨越跨越其服务交付的Cli-Mate行动。lacap是根据环境,气候与通信部的地方当局气候行动指南准备的,2023年。每个lacap将推动在地方一级所需的适应和缓解措施,并使每个地方当局都能达到;
摘要 — 遥感图像场景分类在广泛的应用中发挥着重要作用,因此受到了广泛关注。在过去的几年中,人们做出了巨大的努力来开发各种数据集或提出各种用于遥感图像场景分类的方法。然而,仍然缺乏有关场景分类数据集和方法的文献的系统综述。此外,几乎所有现有数据集都存在许多局限性,包括场景类别和图像数量规模小、图像变化和多样性不足以及准确性饱和。这些限制严重限制了新方法的发展,尤其是基于深度学习的方法。本文首先对最近的进展进行了全面的回顾。然后,我们提出了一个大规模数据集,称为“NWPU-RESISC45”,这是西北工业大学 (NWPU) 创建的遥感图像场景分类 (RESISC) 的公开基准。该数据集包含 31,500 张图像,涵盖 45 个场景类,每个类有 700 张图像。提出的 NWPU-RESISC45 (i) 在场景类和总图像数量上是大规模的,(ii) 在平移、空间分辨率、视点、物体姿势、照明、背景和遮挡方面具有很大的变化,并且 (iii) 具有很高的类内多样性和类间相似性。该数据集的创建将使社区能够开发和评估各种数据驱动算法。最后,使用提出的数据集评估了几种代表性方法,并将结果报告为未来研究的有用基线。索引术语 — 基准数据集、深度学习、手工制作的特征、遥感图像、场景分类、无监督特征学习。
仿真是培训深度学习模型的越来越多的数据源。在机器人技术中,模拟已成功地用于学习诸如导航,步行,飞行或操纵之类的行为。模拟中数据生成的价值主要取决于场景布局的多样性和规模。现有数据集(Ehsani等,2021; Garcia-Garcia等,2019; Mo等,2019; Nasiriany等,2024)在这方面受到限制,而纯粹的生成模型仍然缺乏在物理模拟中可以使用的场景(HOLLEIN及2023 al。el。,et e e eT el。 2024)。其他程序管道要么专注于学习视觉模型(Denninger等,2023; Greff等,2022; Raistrick等,2023),要解决特定的用例,例如自主驾驶(Fremont等,2020; Hess等; Hess等,2021),或者很难扩展和自定义的平台(它们是一个特定的平台(它们是一个与众不同的平台(DET)(DEIT)(DEIT)(DEIT)(DEIT)(DEIT)(DETIT)(DETER)(DETER)。 )。使用scene_synthesizer我们提出
摘要 —遥感图像场景分类在广泛的应用中起着重要作用,因此受到了广泛关注。在过去的几年中,人们付出了巨大的努力来开发各种数据集或提出各种遥感图像场景分类方法。然而,仍然缺乏对场景分类数据集和方法的文献的系统综述。此外,几乎所有现有的数据集都存在许多局限性,包括场景类别和图像数量的规模小、图像变化和多样性不足以及准确性饱和。这些限制严重限制了新方法的发展,尤其是基于深度学习的方法。本文首先对最近的进展进行了全面回顾。然后,我们提出了一个大规模数据集,称为“NWPU-RESISC45”,这是西北工业大学 (NWPU) 创建的遥感图像场景分类 (RESISC) 的公开基准。该数据集包含 31,500 张图像,涵盖 45 个场景类别,每个类别有 700 张图像。所提出的 NWPU-RESISC45 (i) 在场景类别和总图像数量方面规模庞大,(ii) 在平移、空间分辨率、视点、物体姿势、照明、背景和遮挡方面变化很大,(iii) 类内多样性和类间相似性很高。该数据集的创建将使社区能够开发和评估各种数据驱动算法。最后,使用所提出的数据集评估了几种代表性方法,并将结果报告为未来研究的有用基线。索引术语 — 基准数据集、深度学习、手工制作的特征、遥感图像、场景分类、无监督特征学习。