虽然扩散模型已显着提高了图像生成的质量,但它们在这些图像中准确且相干渲染文本的能力仍然是一个重大挑战。场景文本生成的常规基于扩散的方法通常受到对中间布局输出的依赖的限制。这种依赖性通常会导致文本样式和字体的多样性限制,这是布局生成阶段的确定性质所引起的固有限制。为了应对这些挑战,本文介绍了SceneTeTgen,这是一种基于新颖的扩散模型,专门设计用于规避预定义布局阶段的需求。这样做,场景 - 文本促进了文本的更自然和多样化的代表。SceneTextGen的新颖性在于其三个关键组成部分的整体:一个字符级编码器,用于捕获详细的印刷属性,并与字符级实例分割模型和Word-
深度学习是一种自动学习方法,它基于大量示例的学习模式。 div>是一种复杂问题的特别有趣的方法,为之,数据(经验)广泛可用,但是制定分析解决方案是不可行的。 div>在本课程中,我们将探讨深度智能和计算机视觉的基本概念。 div>我们将通过理论会议和实践示例来展示如何根据任务(对象检测,实例分割,对象之间的关系预测)和数据模式(图像,视频,3D)创建和训练深层智力模型。 div>该课程将以一些高级问题的介绍以及有关最近趋势的讨论进行介绍。 div>
摘要 - 为了充分利用移动操纵机器人的功能,必须在大型未探索的环境中自主执行的长途任务。虽然大型语言模型(LLMS)已显示出关于任意任务的紧急推理技能,但现有的工作主要集中在探索的环境上,通常集中于孤立的导航或操纵任务。在这项工作中,我们提出了MOMA-LLM,这是一种新颖的方法,该方法将语言模型基于从开放式摄影场景图中得出的结构化表示形式,随着环境的探索而动态更新。我们将这些表示与以对象为中心的动作空间紧密地交织在一起。重要的是,我们证明了MOMA-LLM在大型现实室内环境中新型语义交互式搜索任务中的有效性。最终的方法是零拍摄,开放式摄影库,并且可以易于扩展到一系列移动操作和家用机器人任务。通过模拟和现实世界中的广泛实验,与传统的基线和最新方法相比,我们证明了搜索效率的显着提高。我们在http://moma-llm.cs.uni-freiburg.de上公开提供代码。
我们应对行人模拟中的内容多样性和收获性的挑战,以驱动方案。最近的行人动画框架具有重要的限制,其中他们主要关注轨迹[48]或参考视频[60]的内容,因此忽略了这种情况下人类运动的潜在多样性。这种限制限制了产生行人行为的能力,这些行为表现出更大的变化和现实动作,因此重新严格使用其用法,为驾驶模拟系统中的其他组件提供丰富的运动内容,例如,突然改变了自动驾驶汽车应响应的运动。在我们的方法中,我们努力通过展示从各种来源获得的各种人类动作(例如生成的人类运动)来超越限制,以遵循给定的轨迹。我们的框架的基本贡献在于将运动跟踪任务与轨迹结合到以下,这可以跟踪特定运动零件(例如上半身),同时遵循单个策略的给定轨迹。以这种方式,我们在给定情况下显着增强了模拟人类运动的分歧,以及内容的可控性,包括基于语言的控制。我们的框架有助于生成
机器人及时通过传感器数据构建持久,准确且可操作的模型的能力是自主操作的范围。在将世界表示为点云可能足以进行本地化时,避免障碍物需要更密集的场景表示形式。另一方面,更高级别的语义信息通常对于分解必要的步骤来完成一项复杂的任务,例如烹饪,自主是至关重要的。因此,迫在眉睫的问题是,手头机器人任务的合适场景表示是什么?这项调查提供了对关键方法和框架的全面回顾,这在机器人空间感知领域推动了进步,并特别关注了代表的历史演变和当前的趋势。通过将场景建模技术分类为三种主要类型(公式,公式和指标 - 语言流行),我们讨论了空间启示框架正在从构建世界的纯几何模型转变为更高级的数据结构的方式,这些模型包括更高级别的概念,例如对象实例和位置的概念。特别重点是实时同时定位和映射(SLAM)的方法,它们与深度学习的集成,以增强了鲁棒性和场景的理解,以及它们处理场景动态性的能力,作为当今驾驶Robotics研究的一些最热门的主题。我们在讨论方面的挑战和未来的研究方向的讨论中进行了结论,以建立适合长期自治的强大而可扩展的空间感知系统。
场景文本图像不仅包含样式信息(字体,背景),还包含内容信息(字符,纹理)。不同的场景文本任务需要不同的信息,但是以前的表示学习方法 - 在所有任务中使用紧密耦合的功能,从而导致次优性能。我们提出了一个旨在解开这两种功能的分解表示学习框架(亲爱的),以改善适应性,以更好地解决各种下游任务(选择您真正需要的内容)。具体来说,我们合成具有相同样式但内容不同的图像对数据集。基于数据集,我们通过监督设计将两种类型的功能分解。很明显,我们将视觉表示形式直接分为样式和内容功能,内容特征是通过文本识别损失来监督的,而对齐损失使图像对中的样式特征保持一致。然后,样式功能用于通过图像解码器重新构造对应图像的提示,以指示对应方的内容。这样的操作根据其独特属性有效地将功能分解。据我们所知,这是场景文本领域中第一次删除文本图像的固有属性。 我们的方法在场景文本识别,转换和编辑中实现了最新的性能。据我们所知,这是场景文本领域中第一次删除文本图像的固有属性。我们的方法在场景文本识别,转换和编辑中实现了最新的性能。
政策制定者目前面临的挑战是支持合适的技术组合以实现电力系统脱碳。由于技术和部门多种且相互依赖,以及降低成本和减少排放等目标相互对立,能源系统模型被用于制定实现脱碳电力系统的最佳过渡路径。近年来,该领域的研究有所增加,多项研究使用能源系统建模 (ESM) 来阐明国家电力系统的可能过渡路径。然而,在许多情况下,大量基于模型的研究使政策制定者难以驾驭研究结果并将不同的路径浓缩为一个连贯的图景。我们对瑞士、德国、法国和意大利的 ESM 出版物进行了深入审查,并分析了有关发电组合的主要趋势、关键供应和存储技术趋势以及需求发展的作用。我们的研究结果表明,关于 2030 年和 2050 年的技术组合提出了不同的解决方案,并非所有解决方案都符合当前的气候目标。此外,我们的分析表明,天然气、太阳能和风能将继续成为电力系统转型的关键参与者,而储能的作用仍不明确,需要更明确的政策支持。我们得出的结论是,由于每个国家的目标和当前的能源格局不同,不同的选择似乎成为突出的转型途径,这意味着每种情况都需要制定单独的政策。尽管如此,国际合作对于确保到 2050 年电力系统迅速转型至关重要。
许多现有的运动预测方法都依赖于符号感知输出来生成代理轨迹,例如边界框,路图信息和traf-fight。这种符号表示是现实世界的高级表现,它可能会使运动预测模型容易受到感知错误的影响(例如,在检测开放式录音障碍时失败),而缺少场景中的显着信息(例如,糟糕的道路条件)。另一种范式是从原始传感器中端到端学习。但是,这种方法缺乏解释性,需要大量的培训资源。在这项工作中,我们提出将视觉世界的标记化为一组紧凑的场景元素,然后利用预先训练的图像基础模型和LiDAR神经网络以开放式播音方式进行编码所有场景元素。图像基础模型使我们的场景令牌可以编码开放世界的一般知识,而LiDAR神经网络编码几何信息。我们提出的表示形式可以有效地用几百个令牌编码多帧多模式观察,并且与大多数基于变压器的体系结构兼容。为了评估我们的方法,我们使用了带有凸轮嵌入的Waymo开放运动数据集。通过Waymo开放运动数据集进行的实验表明,我们的方法会导致对最先进的表现的显着改善。
计算机视觉技术在自动驾驶汽车的感知堆栈中起着核心作用。使用此类方法来感知给定数据的车辆周围环境。3D激光雷达传感器通常用于从场景中收集稀疏的3D点云。然而,根据人类的看法,这种系统努力鉴于那些稀疏的点云,因此很难塑造现场的看不见的部分。在此问题中,场景完成任务旨在预测LiDAR测量中的差距,以实现更完整的场景表示。鉴于最近扩散模型作为图像的生成模型的有希望的结果,我们建议将其扩展以实现单个3D LIDAR扫描的场景。以前的作品使用了从LiDAR数据提取的范围图像上使用扩散模型,直接应用了基于图像的扩散方法。差不多,我们建议直接在这些点上操作,并介绍尖锐的和降解的扩散过程,以便它可以在场景规模上有效地工作。与我们的方法一起,我们提出了正规化损失,以稳定在denoising过程中预测的噪声。我们的实验评估表明,我们的方法可以在单个LIDAR扫描中完成场景,作为输入,与最新场景完成方法相比,产生了更多详细信息的场景。我们认为,我们提出的扩散过程公式可以支持应用于场景尺度点云数据的扩散模型中的进一步研究。1
图像字幕是一项计算机视觉任务,涉及为图像生成自然语言描述。此方法在各个领域都有许多应用,包括图像检索系统,医学和各种行业。但是,尽管图像字幕进行了重要的研究,但大多数研究都集中在高质量的图像或受控环境上,而没有探索现实世界图像字幕的挑战。现实世界的图像字幕涉及复杂而动态的环境,具有许多关注点,图像通常在质量上非常差,甚至对于人类而言,这也是一项艰巨的任务。本文评估了在不同编码机制,语言解码器和培训程序之上构建的各种模型的性能,使用新创建的现实世界数据集由使用MIT室内场景数据集构建的65多个不同场景类的800多个图像组成。该数据集使用IC3方法字幕,该方法通过汇总来自图像的唯一视图点的标准图像字幕模型所涵盖的详细信息来生成更具描述性字幕。