机器人及时通过传感器数据构建持久,准确且可操作的模型的能力是自主操作的范围。在将世界表示为点云可能足以进行本地化时,避免障碍物需要更密集的场景表示形式。另一方面,更高级别的语义信息通常对于分解必要的步骤来完成一项复杂的任务,例如烹饪,自主是至关重要的。因此,迫在眉睫的问题是,手头机器人任务的合适场景表示是什么?这项调查提供了对关键方法和框架的全面回顾,这在机器人空间感知领域推动了进步,并特别关注了代表的历史演变和当前的趋势。通过将场景建模技术分类为三种主要类型(公式,公式和指标 - 语言流行),我们讨论了空间启示框架正在从构建世界的纯几何模型转变为更高级的数据结构的方式,这些模型包括更高级别的概念,例如对象实例和位置的概念。特别重点是实时同时定位和映射(SLAM)的方法,它们与深度学习的集成,以增强了鲁棒性和场景的理解,以及它们处理场景动态性的能力,作为当今驾驶Robotics研究的一些最热门的主题。我们在讨论方面的挑战和未来的研究方向的讨论中进行了结论,以建立适合长期自治的强大而可扩展的空间感知系统。
场景文本图像不仅包含样式信息(字体,背景),还包含内容信息(字符,纹理)。不同的场景文本任务需要不同的信息,但是以前的表示学习方法 - 在所有任务中使用紧密耦合的功能,从而导致次优性能。我们提出了一个旨在解开这两种功能的分解表示学习框架(亲爱的),以改善适应性,以更好地解决各种下游任务(选择您真正需要的内容)。具体来说,我们合成具有相同样式但内容不同的图像对数据集。基于数据集,我们通过监督设计将两种类型的功能分解。很明显,我们将视觉表示形式直接分为样式和内容功能,内容特征是通过文本识别损失来监督的,而对齐损失使图像对中的样式特征保持一致。然后,样式功能用于通过图像解码器重新构造对应图像的提示,以指示对应方的内容。这样的操作根据其独特属性有效地将功能分解。据我们所知,这是场景文本领域中第一次删除文本图像的固有属性。 我们的方法在场景文本识别,转换和编辑中实现了最新的性能。据我们所知,这是场景文本领域中第一次删除文本图像的固有属性。我们的方法在场景文本识别,转换和编辑中实现了最新的性能。
文本驱动的3D场景生成技术近年来取得了迅速的进步。他们的成功主要是为了使用现有的生成模型进行迭代执行图像翘曲和介入以生成3D场景。但是,这些方法在很大程度上依赖于现有模型的外部,从而导致几何和外观中的错误积累,从而阻止模型在各种情况下使用(例如,户外和虚幻的SCE-Narios)。为了解决此限制,我们通常通过查询和聚集全局3D信息来完善新生成的本地视图,然后逐步生成3D场景。具体而言,我们采用基于三平面特征的NERF作为3D场景的统一表示,以限制全局3D的一致性,并提出一个生成的改进网络,通过从2D差异模型以及当前场景的全球3D信息中利用自然图像来综合具有更高质量的新内容。我们的广泛实验表明,与以前的方法相比,我们的方法支持各种各样的场景产生和任意相机传播,并具有提高的视觉质量和3D一致性。
虽然扩散模型已显着提高了图像生成的质量,但它们在这些图像中准确且相干渲染文本的能力仍然是一个重大挑战。场景文本生成的常规基于扩散的方法通常受到对中间布局输出的依赖的限制。这种依赖性通常会导致文本样式和字体的多样性限制,这是布局生成阶段的确定性质所引起的固有限制。为了应对这些挑战,本文介绍了SceneTeTgen,这是一种基于新颖的扩散模型,专门设计用于规避预定义布局阶段的需求。这样做,场景 - 文本促进了文本的更自然和多样化的代表。SceneTextGen的新颖性在于其三个关键组成部分的整体:一个字符级编码器,用于捕获详细的印刷属性,并与字符级实例分割模型和Word-
计算机视觉技术在自动驾驶汽车的感知堆栈中起着核心作用。使用此类方法来感知给定数据的车辆周围环境。3D激光雷达传感器通常用于从场景中收集稀疏的3D点云。然而,根据人类的看法,这种系统努力鉴于那些稀疏的点云,因此很难塑造现场的看不见的部分。在此问题中,场景完成任务旨在预测LiDAR测量中的差距,以实现更完整的场景表示。鉴于最近扩散模型作为图像的生成模型的有希望的结果,我们建议将其扩展以实现单个3D LIDAR扫描的场景。以前的作品使用了从LiDAR数据提取的范围图像上使用扩散模型,直接应用了基于图像的扩散方法。差不多,我们建议直接在这些点上操作,并介绍尖锐的和降解的扩散过程,以便它可以在场景规模上有效地工作。与我们的方法一起,我们提出了正规化损失,以稳定在denoising过程中预测的噪声。我们的实验评估表明,我们的方法可以在单个LIDAR扫描中完成场景,作为输入,与最新场景完成方法相比,产生了更多详细信息的场景。我们认为,我们提出的扩散过程公式可以支持应用于场景尺度点云数据的扩散模型中的进一步研究。1
已经取得了显着的迈进,该领域显然是由于缺乏高质量数据集而导致的。早期数据集(如Pigraphs [39]和Prox [16])启动了探索,但受到可扩展性和数据质量的约束。MOCAP数据集[14,30]使用Vicon等复杂的设备优先考虑高质量的人类运动限制。但是,他们通常缺乏捕获多样化和沉浸式的HSI。通过RGBD视频录制的可扩展数据集提供了更广泛的实用程序,但受到人类姿势和对象跟踪质量较低的阻碍。合成数据集的出现[1,3,4,55]提供了成本效率和适应性,但无法封装完整的现实HSI频谱,尤其是在捕获动态3D触点和对象跟踪时。为了应对这些挑战,这项工作首先引入了trumans(t rack hum a um a u u u u u u u u u u u u u u a ctio n s in s cenes)数据集。Trumans成为最广泛的运动捕获HSI数据集,涵盖了15个小时以上15个小时的室内场景中的各种相互作用。它捕获了全身的人类动作和部分级别的对象动力学,重点是接触的现实主义。通过将物理环境复制到准确的虚拟模型中,可以进一步增强此数据集。外观和运动的广泛增强都应用于人类和物体,以确保相互作用的高度有限。接下来,我们设计了一个计算模型,通过将场景和动作作为条件同时采取行动来应对上述挑战。我们对杜鲁士数据集和运动合成方法进行了全面的交叉评估。特别是,我们的模型采用自回归的条件扩散,场景和动作嵌入作为征用输入,能够产生任意长度的运动。为了整合场景上下文,我们通过在本地化的基础上查询全局场景的占用来开发有效的场景感知者,这在导航杂乱的场景时表现出了3D感知的碰撞避免的强大效率。为了将框架的动作标签合并为条件,我们将时间特征集成到动作片段中,使模型在粘附在给定的动作标签时随时接受指令。场景和动作条件的这种双重整合增强了我们方法的可控性,为在3D场景中合成合理的长期运动提供了细微的界面。将trumans与现有人物进行比较,我们证明了杜鲁士人明显提高了最先进的方法的性能。此外,我们的方法在定性和定量上进行了评估,超过了现有的运动综合方法,其质量和零击性能力在看不见的3D场景上,非常接近原始运动捕获数据的质量。除了运动合成之外,杜鲁士人已经针对人类的姿势和接触估计任务进行了基准测试,证明了其多功能性并将其确立为一系列未来的研究努力的宝贵资产。
摘要 - 为了充分利用移动操纵机器人的功能,必须在大型未探索的环境中自主执行的长途任务。虽然大型语言模型(LLMS)已显示出关于任意任务的紧急推理技能,但现有的工作主要集中在探索的环境上,通常集中于孤立的导航或操纵任务。在这项工作中,我们提出了MOMA-LLM,这是一种新颖的方法,该方法将语言模型基于从开放式摄影场景图中得出的结构化表示形式,随着环境的探索而动态更新。我们将这些表示与以对象为中心的动作空间紧密地交织在一起。重要的是,我们证明了MOMA-LLM在大型现实室内环境中新型语义交互式搜索任务中的有效性。最终的方法是零拍摄,开放式摄影库,并且可以易于扩展到一系列移动操作和家用机器人任务。通过模拟和现实世界中的广泛实验,与传统的基线和最新方法相比,我们证明了搜索效率的显着提高。我们在http://moma-llm.cs.uni-freiburg.de上公开提供代码。
近年来,文本图像联合预训练技术在各种任务中显示出令人鼓舞的结果。然而,在光学特征识别(OCR)任务中,将文本实例与图像中的相应文本区域对齐是一个挑战,因为它需要在文本和OCR文本之间有效地对齐(将图像中的文本称为ocr-文本以与自然语言中的文本区分开来),而不是对整体图像内容的全面理解。在本文中,我们提出了一种新的预训练方法,称为o cr-text d估计化m odeling(ODM),该方法根据文本提示将图像中的文本样式传输到统一样式中。使用ODM,我们在文本和OCR文本之间实现了更好的对齐方式,并启用预训练的模型以适应场景文本的复杂和多样化的样式。此外,我们为ODM设计了一种新的标签生成方法,并将其与我们提出的文本控制器模块相结合,以应对OCR任务中注释成本的挑战,并以大量未标记的数据参与预培训。在多个Pub-LIC数据集上进行的广泛实验表明,我们的方法显着地证明了性能,并且在场景文本检测和发现任务中的当前预训练方法优于当前的预训练方法。代码在ODM上可用。
政策制定者目前面临的挑战是支持合适的技术组合以实现电力系统脱碳。由于技术和部门多种且相互依赖,以及降低成本和减少排放等目标相互对立,能源系统模型被用于制定实现脱碳电力系统的最佳过渡路径。近年来,该领域的研究有所增加,多项研究使用能源系统建模 (ESM) 来阐明国家电力系统的可能过渡路径。然而,在许多情况下,大量基于模型的研究使政策制定者难以驾驭研究结果并将不同的路径浓缩为一个连贯的图景。我们对瑞士、德国、法国和意大利的 ESM 出版物进行了深入审查,并分析了有关发电组合的主要趋势、关键供应和存储技术趋势以及需求发展的作用。我们的研究结果表明,关于 2030 年和 2050 年的技术组合提出了不同的解决方案,并非所有解决方案都符合当前的气候目标。此外,我们的分析表明,天然气、太阳能和风能将继续成为电力系统转型的关键参与者,而储能的作用仍不明确,需要更明确的政策支持。我们得出的结论是,由于每个国家的目标和当前的能源格局不同,不同的选择似乎成为突出的转型途径,这意味着每种情况都需要制定单独的政策。尽管如此,国际合作对于确保到 2050 年电力系统迅速转型至关重要。
我们应对行人模拟中的内容多样性和收获性的挑战,以驱动方案。最近的行人动画框架具有重要的限制,其中他们主要关注轨迹[48]或参考视频[60]的内容,因此忽略了这种情况下人类运动的潜在多样性。这种限制限制了产生行人行为的能力,这些行为表现出更大的变化和现实动作,因此重新严格使用其用法,为驾驶模拟系统中的其他组件提供丰富的运动内容,例如,突然改变了自动驾驶汽车应响应的运动。在我们的方法中,我们努力通过展示从各种来源获得的各种人类动作(例如生成的人类运动)来超越限制,以遵循给定的轨迹。我们的框架的基本贡献在于将运动跟踪任务与轨迹结合到以下,这可以跟踪特定运动零件(例如上半身),同时遵循单个策略的给定轨迹。以这种方式,我们在给定情况下显着增强了模拟人类运动的分歧,以及内容的可控性,包括基于语言的控制。我们的框架有助于生成