虽然扩散模型已显着提高了图像生成的质量,但它们在这些图像中准确且相干渲染文本的能力仍然是一个重大挑战。场景文本生成的常规基于扩散的方法通常受到对中间布局输出的依赖的限制。这种依赖性通常会导致文本样式和字体的多样性限制,这是布局生成阶段的确定性质所引起的固有限制。为了应对这些挑战,本文介绍了SceneTeTgen,这是一种基于新颖的扩散模型,专门设计用于规避预定义布局阶段的需求。这样做,场景 - 文本促进了文本的更自然和多样化的代表。SceneTextGen的新颖性在于其三个关键组成部分的整体:一个字符级编码器,用于捕获详细的印刷属性,并与字符级实例分割模型和Word-
场景文本图像不仅包含样式信息(字体,背景),还包含内容信息(字符,纹理)。不同的场景文本任务需要不同的信息,但是以前的表示学习方法 - 在所有任务中使用紧密耦合的功能,从而导致次优性能。我们提出了一个旨在解开这两种功能的分解表示学习框架(亲爱的),以改善适应性,以更好地解决各种下游任务(选择您真正需要的内容)。具体来说,我们合成具有相同样式但内容不同的图像对数据集。基于数据集,我们通过监督设计将两种类型的功能分解。很明显,我们将视觉表示形式直接分为样式和内容功能,内容特征是通过文本识别损失来监督的,而对齐损失使图像对中的样式特征保持一致。然后,样式功能用于通过图像解码器重新构造对应图像的提示,以指示对应方的内容。这样的操作根据其独特属性有效地将功能分解。据我们所知,这是场景文本领域中第一次删除文本图像的固有属性。 我们的方法在场景文本识别,转换和编辑中实现了最新的性能。据我们所知,这是场景文本领域中第一次删除文本图像的固有属性。我们的方法在场景文本识别,转换和编辑中实现了最新的性能。
近年来,文本图像联合预训练技术在各种任务中显示出令人鼓舞的结果。然而,在光学特征识别(OCR)任务中,将文本实例与图像中的相应文本区域对齐是一个挑战,因为它需要在文本和OCR文本之间有效地对齐(将图像中的文本称为ocr-文本以与自然语言中的文本区分开来),而不是对整体图像内容的全面理解。在本文中,我们提出了一种新的预训练方法,称为o cr-text d估计化m odeling(ODM),该方法根据文本提示将图像中的文本样式传输到统一样式中。使用ODM,我们在文本和OCR文本之间实现了更好的对齐方式,并启用预训练的模型以适应场景文本的复杂和多样化的样式。此外,我们为ODM设计了一种新的标签生成方法,并将其与我们提出的文本控制器模块相结合,以应对OCR任务中注释成本的挑战,并以大量未标记的数据参与预培训。在多个Pub-LIC数据集上进行的广泛实验表明,我们的方法显着地证明了性能,并且在场景文本检测和发现任务中的当前预训练方法优于当前的预训练方法。代码在ODM上可用。
文本驱动的3D场景生成技术近年来取得了迅速的进步。他们的成功主要是为了使用现有的生成模型进行迭代执行图像翘曲和介入以生成3D场景。但是,这些方法在很大程度上依赖于现有模型的外部,从而导致几何和外观中的错误积累,从而阻止模型在各种情况下使用(例如,户外和虚幻的SCE-Narios)。为了解决此限制,我们通常通过查询和聚集全局3D信息来完善新生成的本地视图,然后逐步生成3D场景。具体而言,我们采用基于三平面特征的NERF作为3D场景的统一表示,以限制全局3D的一致性,并提出一个生成的改进网络,通过从2D差异模型以及当前场景的全球3D信息中利用自然图像来综合具有更高质量的新内容。我们的广泛实验表明,与以前的方法相比,我们的方法支持各种各样的场景产生和任意相机传播,并具有提高的视觉质量和3D一致性。
摘要 - 隐式表示,例如神经辐射场(NERF),可以通过连续的神经功能在3D场景中绘制颜色,密度和语义。但是,这些模型通常需要手动和仔细的人类数据收集进行培训。本文解决了自主nerf构造的主动探索问题。我们研究代理如何学会有效地探索未知的3D环境,以便在自主性过程中收集的数据能够学习高质量的神经隐式图表示。在四个与机器人相关的下游任务上评估了所学代表的质量:经典的观点渲染,地图重建,计划和姿势改进。我们比较了不同的探索策略的影响,包括基于前沿的基于基础和学习的方法(端到端和模块化)以及针对此问题量身定制的不同奖励功能。经验结果表明,可以使用在看不见的环境中使用一集经验对积极收集的数据进行培训,并且Autonerf是一种经过加固学习训练的模块化勘探策略,使得获得了高质量的NERF,以获得高质量的NERF,以实现经过考虑的下游机器人任务。最后,我们证明,使用Autonerf可以将代理部署到以前未知的场景中,然后通过通过勘探,重建和策略填充的循环来适应场景来自动改善其导航性能。
在2020年1月担任这个角色后,似乎是一个适当的时刻,可以反思我过去五年中学到的东西。第一个(五个,自然!)我了解到的是,很难就真正的共识达成共识。DVB对这一基本原则的承诺有时会导致在与我们行业的需求保持同步方面遇到困难。我们会不时听到包括我自己的挫败感,但我相信DVB能够使正确的行业领导者团结起来,尤其是从竞争公司到共同目标。成功在于,尽管单个公司的利益可能有所不同,但能够遵守这些目标。这仍然是可能的,幸运的是仍然发生。第二。就像雪球一样,创新可以促使进一步的创新。虽然我以前在DVB成员公司中的角色经常与创新有着深远的联系,但我也许并没有期望在发展组织中看到这么多创新。对我来说很明显,由于标准的发展而产生的创新与与专有技术相关的创新一样重要,后者通常是在前者建立的。创建标准也可能是创新的有效引擎,正如我在过去五年中在多个领域所见过的那样。插图可能是DVB-I服务发现功能中的智能集成到DVB本机IP(DVB-NIP)交付解决方案中,从而产生了良好的,进化和一致的媒体交付生态系统。三,不会有任何DVB-T3,S3或SX 3。该领域的几个玩家已经将他们的产品依靠,并添加了自己的不同功能。这不仅是因为天空不是极限(香农教授为我们定义了),而且最重要的是,今天我们的行业挑战已从带宽问题转移到内容发现。因此,我们的“ DVB-I服务发现”
自动驾驶汽车(AVS)在没有人类干预的情况下做出决定。因此,确保AVS的可靠性至关重要。尽管在AV开发方面进行了重大研究和发展,但由于其操作环境的复杂性和无预测性,它们的可靠性仍然是一个重大挑战。基于方案的测试在各种驾驶场景下评估了AVS,但无限数量的潜在方案突出了识别可能违反安全或功能要求的关键场景的重要性。此类要求本质上是相互依存的,需要同时进行测试。为此,我们提出了MOEQT,这是一种新型的多目标增强学习(MORL)的方法,以生成关键场景,同时测试相互依存的安全性和功能要求。MOEQT将包络Q学习作为Morl算法,该算法会动态调整多目标权重以平衡多个目标之间的相对重要性。MOEQT通过动态与AV环境进行动态交互,生成关键场景,以违反多PLE要求,从而确保全面的AV测试。我们使用高级端到端AV控制器和高保真模拟器评估MOEQT,并将MOEQT与两个基准进行比较:随机策略和具有加权奖励函数的单对象RL。我们的评估结果表明,MOEQT在确定违反多个要求的关键方案方面取得了更好的表现。
摘要:南美东南部(SE-SA)的夏季降雨趋势近几十年来一直受到关注,因为它们对气候影响的重要性。已经确定了多种驾驶机制的趋势,其中一些具有相反的影响。仍然不清楚每种机制对观察到的趋势有多大贡献,或者它们的联合影响将如何影响未来的变化。在这里,我们解决了第二个问题,并研究了CMIP6夏季SE-SA降雨对温室变暖的反应如何通过与南半球对偏远驱动因素(RDS)区域气候变化的大规模术语相关的机制来解释。我们发现,结合了四个RD的影响,可以很好地表示区域不确定性:表面变暖的热带上层对流层扩增,平流层极性涡流分解日期的延迟以及两个RD的延迟表征了公认的热带Pacifical Pacifial Pacific-pacific-pacific-ficifcsSt变暖模式。应用故事情节框架,我们确定了导致最极端干燥和润湿场景的RD响应的组合。尽管大多数情况都涉及润湿,但如果高对于对流层的热带热带变暖和早期的平流层极性涡流分解条件与低中心和东部太平洋的变暖相结合,则可能会导致SE-SA干燥。我们还展示了SE-SA区域框的定义如何影响结果,因为表征动力学影响的空间模式是复杂的,并且如果在聚集时不考虑这些影响,则可以平均降雨变化。本文的观点和相关方法适用于全球其他地区。
摘要:在高速公路上的自动驾驶汽车的背景下,第一个也是最重要的任务之一是将车辆定位在道路上。为此,车辆需要能够考虑到几个传感器的信息,并将其与来自路线图的数据融合在一起。高速公路上的本地化问题可以蒸馏成三个主要组成部分。第一个是推断车辆目前行驶的道路上的推断。的确,全球导航卫星系统不够精确,无法自行推导此信息,因此需要进行过滤步骤。第二部分包括估计车辆在车道中的位置。最后,第三个也是最后一个旨在评估车辆目前驾驶的车道。这两个组件是必须安全驾驶的,因为诸如车辆之类的行动需要有关车辆当前定位的精确信息。在这项调查中,我们介绍了在高速公路场景中自动驾驶的定位方法的分类法。我们介绍本地化过程的每个主要组成部分,并讨论相关最新方法的优点和缺点。
学习以场景图的形式从原始信息组成视觉关系是一项高度挑战的任务,这是由于上下文依赖性的,但是在依赖于场景所在的现场视觉应用程序中至关重要。但是,场景图生成(SGG)中没有当前的方法旨在为下流任务提供有用的图形。相反,主要重点主要是公开数据分布以预测更多细粒关系的任务。据说,所有的关系关系都不相同,至少其中一部分对现实世界应用没有用。在这项工作中,我们介绍了有效的SGG的任务,该任务旨在阐述相关关系的产生,从而促进了在下游任务(例如图像生成)中使用场景图的使用。为了支持进一步的方法,我们根据流行的Visual Genome数据集的注释提出了一个新的数据集,即VG150策划的新数据集。我们通过一组实验表明,该数据集包含比通常在SGG中使用的数据更高质量和多样的注释。最后,我们显示了从场景图1中生成图像生成的任务中该数据集的效率。