摘要:如今,由于人类不负责任,不可预测的气候波动以及家庭和工业环境,火灾事件定期发生。本研究描述了使用人工智能来识别火灾事件的消防机器人,并有能力远程射击,从而最大程度地降低了消防战士的风险。消防机器人根据用户监督和基于传感器的输入的组合进行移动。软件包括集成跟踪,火焰检测,避免障碍物和灭火。可以通过连接到消防软管的伺服电机来调节喷水的方向和量。在最后阶段,使用模拟的消防试验环境来评估消防机器人的性能。在对受灾地区进行自主检查期间,消防机器人有能力实时识别火焰,通过灭火系统启动自动灭火,并在最初的阶段管理火。
新刑法引入的主要变化之一是“通过任何音频视频电子方式记录犯罪现场,最好是手机”。通过以可靠的方式捕获犯罪现场,它可以帮助克服矛盾的证人证词和篡改指控的问题。法院正确强调了需要采用新技术的必要性,同时确保了足够的保障措施。但是,该指令的有效执行需要调查机构之间的适当培训,资源和协调。
交互式3D环境是对体现的AI代理进行培训和评估的关键,这使得对现实的大型3D数据集的可用性对于该地区未来的杂志至关重要。然而,现代的最先进的模拟数据库很少包含一百多个相互影响的场景[26] [19] [14],因为手动场景既耗时又耗时且昂贵。虽然已经努力从头开始生成模拟场景[5],但在这些环境中训练AI代理的结果并不令人满意[12],可能是因为这些解决方案使用过度简单的规则,导致了不现实的世代。同时,扫描真实环境构建的3D重建数据集可能包含数千个现实的场景[4] [42] [40],而缺乏交互所需的物理对象注释。在此项目中,我们引入了一个解决方案,该解决方案利用了在线可用于在两个阶段的程序生成的在线可用的Abun dant 3D重建数据。首先,我们使用接地的SAM [33],这是一个强大的开放式对象检测和半分割工具来分割和注释输入3D网格,并使用用户定义的对象类别。第二,我们使用剪辑[28]图像表示和上一步预测的类标签找到了每个检测到的对象的最近数据库对象(语义和方向上的类似)。此过程可用于将任何3D网格场景(重建或生成)转换为具有较高的环境,通过用丰富的注释数据库对象替换其原始网格顾问来通过重新流动。
摘要 - 随着大型语言模型(LLM),视觉模型(VLM)和其他一般基础模型的最新兴起,多模式,多任务体现的代理的潜力越来越大,可以在不同的环境中以自然语言作为输入来运作。一个这样的应用区是使用自然语言说明的室内导航。尽管最近进展,但由于所需的空间推理和语义理解,该问题仍然具有挑战性,尤其是在可能包含许多属于细粒类的对象的任意场景中。为了应对这一挑战,我们策划了3D场景(VLA-3D)的视觉和语言引导动作的最大现实世界数据集(VLA-3D),包括超过11.5k的现有数据集中的3D室内室内室内,2350万个启发式化的启发式化的启发式语义生成的语义关系,对象之间,综合构成了综合典型的参考性。我们的数据集由处理过的3D点云,语义对象和房间注释,场景图,可通航的自由空间注释以及参考语言语句,这些语言语言专门针对独立于视图的空间关系,以消除歧义对象。这些功能的目标是专门帮助导航的下游任务,尤其是在现实系统中,必须在不断变化的场景和不完美的语言的开放世界中保证某种级别的鲁棒性。我们还旨在使该数据集有助于开发交互式代理,这些互动代理都可以响应命令并提出有关场景的问题并回答问题。我们使用当前的最新模型基准测试数据集,以获得性能基线。所有要生成和可视化数据集的代码均公开发布1。随着该数据集的发布,我们希望为语义3D场景中的进度提供资源,这对变化是可靠的,这将有助于开发交互式室内导航系统。
编辑场景图像在各个领域都非常重要,从娱乐,专业摄影和广告设计开始。内容编辑可以为观众创造沉浸式和迷人的体验,有效地传达艺术愿景并实现所需的美学结果。随着深层生成建模的快速发展,已经进行了许多尝试有效地编辑图像的尝试。但是,他们遇到了阻碍潜力的局限性。以前的方法主要集中在2D图像空间中的场景编辑上。他们通常依靠生成先验,例如gan和扩散模型(DM),并采用了诸如修改跨注意机制的技术[Hertz等。2022,2023],以及网络参数的优化[Chen等。2023a; Gal等。2022; Kawar等。2023; Kim等。2022; Ruiz等。2023]在场景图像中编辑外观和对象身份。尽管已做出一些努力将这些方法扩展到3D编辑,但它们忽略了3D提示,并在保持3D一致性方面构成了挑战,尤其是在更改摄像头姿势时。此外,这些方法通常集中在全球场景上,并且缺乏准确地解开对象的能力,从而导致对3D级别对单个对象的控制有限。为了编辑任何场景图像并启用对场景及其单个对象的3D控制,我们提出了3DITSCENE,这是一个新颖的场景编辑框架,该框架利用了新的场景表示形式,语言指导的散布高斯散布。2022; Rombach等。具体而言,给定的图像首先投影到3D高斯人中,这些高斯人通过2D生成的先验进一步完善并富集[Poole等。2022]。因此,我们获得了一个综合的3D场景表示,该表示自然可以为给定图像提供新的视图综合。此外,剪辑中的语言特征被蒸馏到相应的3D高斯人中,将语义引入3D几何形状。这些语义3D高斯人有助于将单个对象从整个场景表示中删除,从而导致语言引导的散布的高斯人进行场景分解。他们还允许更具用户友好的交互作用,即用户可以通过文本查询特定的对象或兴趣。为此,我们的3DITSCENE可实现从2D到3D的无缝编辑,并允许在全球和个人层面上进行修改,使创建者能够精确控制场景组合和对象级的编辑。我们将管道称为3DITSCENE。与以前的工作不同,该作品着重于解决单一类型的编辑,3DITSCENE INTETE-GRETS编辑要求在统一框架内。我们的预告片数字通过展示其在不同场景图像中的应用来演示3DITSCENE的多功能性。我们在各种环境下对3DITSCENE进行了评估,结果证明了基线方法的显着改善。
摘要:建筑信息建模(BIM)的结合带来了土木工程的重大进步,增强了项目生命周期的效率和可持续性。激光扫描等高级3D点云技术的利用扩展了BIM的应用,尤其是在操作和维护中,促使探索自动化解决方案以进行劳动密集型点云建模。本文介绍了监督机器学习(特别是支持向量机)的演示,用于分析和分割3D点云,这是3D建模的关键步骤。对点云语义分割工作流进行了广泛的审查,以涵盖关键元素,例如邻域选择,特征提取和特征选择,从而为此过程开发了优化的方法。在每个阶段都实施各种策略,以增强整体工作流程并确保弹性结果。然后使用来自桥梁基础结构场景的不同数据集评估该方法,并将其与最先进的深度学习模型进行了比较。调查结果强调了在精确细分3D点云时监督机器学习技术的有效性,超过了较小的培训数据集的深度学习模型,例如PointNet和PointNet ++。通过实施高级分割技术,要点对点云的3D建模所需的时间有所减少,从而进一步提高了BIM过程的效率和有效性。
基于扩散的生成建模的最新进展导致了文本对视频(T2V)模型的开发,这些模型可以在文本提示下生成高质量的视频。这些T2V模型中的大多数通常会产生单场视频剪辑,该视频片段描绘了执行特定动作的实体(例如,“红熊猫爬树”)。但是,由于它们在现实世界中无处不在(例如,“红色熊猫爬树”,然后是“红熊猫睡在树的顶部”)。要从验证的T2V模型中生成多场景视频,我们介绍了IME IGNED C APTIONS(TALC)框架。具体来说,我们增强了T2V体系结构中的文本调节机制,以识别视频场景和场景描述之间的时间对齐。例如,我们调节生成视频的早期和后期场景的视觉特征,其中包括第一个场景描述的表示(例如,“红色熊猫爬树”)和第二个场景描述(例如,“红色熊猫睡在树的顶部”)。因此,我们表明T2V模型可以生成遵守多场曲线文本描述并在视觉上保持一致的多场景视频(例如,实体和背景)。,我们使用TALC框架使用多场景视频文本数据进行预验证的T2V模型。我们表明,滑石粉模型的表现优于基线方法,总分中的基线方法平均使用人类评估来平均视觉一致性和文本依从性。项目网站是https://talc-mst2v.github.io/。
摘要 - 度量,语义和拓扑映射的最新进展使自主机器人配备了概念接地能力来解释自然语言任务。利用这些功能,这项工作开发了一种有效的任务计划算法,用于层次度量的语义模式。我们考虑环境的场景图模型,并利用大型语言模型(LLM)将自然语言任务转换为线性时间逻辑(LTL)自动机。我们的主要贡献是在场景图上使用LLM指导启用最佳层次LTL计划。为了达到效率,我们构建了一个层次规划域,该域捕获场景图和任务自动机的属性和连接性,并通过LLM启发式函数提供语义指导。为了确保最佳性,我们设计了一个LTL启发式功能,该功能可证明是一致的,并为多效率计划中的潜在不可接受的LLM指导提供了。我们在虚拟化真实环境的场景图中演示了复杂自然语言任务的有效计划。
图2。我们的RoboExp系统的概述。我们介绍了由四个模块组成的RoboExp系统的全面概述。(a)我们的感知模块将RGBD图像作为输入,并产生相应的2D边界框,掩码,对象标签和关联的语义特征作为输出。(b)内存模块无缝将2D信息集成到3D空间中,从而实现了更一致的3D实例分割。此外,它通过合并实例构建了我们ACSG的高级图。(c)我们的决策模块是提议者和验证者的双重角色。提案者建议各种行动,例如开门和抽屉,而验证者评估每个动作的可行性,考虑到阻塞等因素。(d)动作模块执行提出的操作,使机器人组能够与环境有效相互作用。