计算机视觉技术在自动驾驶汽车的感知堆栈中起着核心作用。使用此类方法来感知给定数据的车辆周围环境。3D激光雷达传感器通常用于从场景中收集稀疏的3D点云。然而,根据人类的看法,这种系统努力鉴于那些稀疏的点云,因此很难塑造现场的看不见的部分。在此问题中,场景完成任务旨在预测LiDAR测量中的差距,以实现更完整的场景表示。鉴于最近扩散模型作为图像的生成模型的有希望的结果,我们建议将其扩展以实现单个3D LIDAR扫描的场景。以前的作品使用了从LiDAR数据提取的范围图像上使用扩散模型,直接应用了基于图像的扩散方法。差不多,我们建议直接在这些点上操作,并介绍尖锐的和降解的扩散过程,以便它可以在场景规模上有效地工作。与我们的方法一起,我们提出了正规化损失,以稳定在denoising过程中预测的噪声。我们的实验评估表明,我们的方法可以在单个LIDAR扫描中完成场景,作为输入,与最新场景完成方法相比,产生了更多详细信息的场景。我们认为,我们提出的扩散过程公式可以支持应用于场景尺度点云数据的扩散模型中的进一步研究。1
近年来,文本图像联合预训练技术在各种任务中显示出令人鼓舞的结果。然而,在光学特征识别(OCR)任务中,将文本实例与图像中的相应文本区域对齐是一个挑战,因为它需要在文本和OCR文本之间有效地对齐(将图像中的文本称为ocr-文本以与自然语言中的文本区分开来),而不是对整体图像内容的全面理解。在本文中,我们提出了一种新的预训练方法,称为o cr-text d估计化m odeling(ODM),该方法根据文本提示将图像中的文本样式传输到统一样式中。使用ODM,我们在文本和OCR文本之间实现了更好的对齐方式,并启用预训练的模型以适应场景文本的复杂和多样化的样式。此外,我们为ODM设计了一种新的标签生成方法,并将其与我们提出的文本控制器模块相结合,以应对OCR任务中注释成本的挑战,并以大量未标记的数据参与预培训。在多个Pub-LIC数据集上进行的广泛实验表明,我们的方法显着地证明了性能,并且在场景文本检测和发现任务中的当前预训练方法优于当前的预训练方法。代码在ODM上可用。
生成的神经辐射场(NERF)通过学习一组未经未介绍的图像的分布来综合多视图图像,表现出非常熟练的熟练程度。尽管现有的生成nerf具有在数据分布中生成3D一致的高质量随机样本的才能,但创建单数输入图像的3D表示仍然是一个巨大的挑战。在此手稿中,我们介绍了Zignerf,这是一种创新的模型,该模型执行零击生成的对抗网(GAN)倒置,以从单个脱离分布图像中生成多视图。该模型的基础是一个新型逆变器的基础,该逆变器映射到了发电机歧管的潜在代码中。毫无意义,Zignerf能够将对象从背景中解散并执行3D操作,例如360度旋转或深度和水平翻译。使用多个实数数据集对我们的模型的效率进行验证:猫,AFHQ,Celeba,Celeba-HQ和Compcars。
机器人及时通过传感器数据构建持久,准确且可操作的模型的能力是自主操作的范围。在将世界表示为点云可能足以进行本地化时,避免障碍物需要更密集的场景表示形式。另一方面,更高级别的语义信息通常对于分解必要的步骤来完成一项复杂的任务,例如烹饪,自主是至关重要的。因此,迫在眉睫的问题是,手头机器人任务的合适场景表示是什么?这项调查提供了对关键方法和框架的全面回顾,这在机器人空间感知领域推动了进步,并特别关注了代表的历史演变和当前的趋势。通过将场景建模技术分类为三种主要类型(公式,公式和指标 - 语言流行),我们讨论了空间启示框架正在从构建世界的纯几何模型转变为更高级的数据结构的方式,这些模型包括更高级别的概念,例如对象实例和位置的概念。特别重点是实时同时定位和映射(SLAM)的方法,它们与深度学习的集成,以增强了鲁棒性和场景的理解,以及它们处理场景动态性的能力,作为当今驾驶Robotics研究的一些最热门的主题。我们在讨论方面的挑战和未来的研究方向的讨论中进行了结论,以建立适合长期自治的强大而可扩展的空间感知系统。
摘要我们提出了一种大型语言模型(LLM)的ChatScene-利用LLM的能力来为自动驾驶汽车的安全至关重要方案。给定的非结构化语言指令,代理首先使用LLMS生成文本描述的流量方案。这些SCE-NARIO描述随后被分解为几个子描述,以获取指定的细节,例如行为和车辆的位置。代理然后将文本描述的子筛选性转换为特定于域的语言,然后在模拟器中生成用于预测和控制的实际代码,从而促进了Carla Simulation Envimonment中的不同和复杂场景的创建。我们代理的关键部分是一个全面的知识检索组件,它通过训练包含情景描述和代码对的知识数据库来有效地将特定的文本描述转化为相应的特定领域代码段。广泛的实验结果强调了Chatscene在提高自动驾驶汽车安全性方面的功效。对于Intance,ChatScene产生的方案显示,与最先进的基线相比,在针对不同的基于强化的基于学习的自我车辆进行测试时,碰撞率增加了15%。此外,我们表明,通过使用我们生成的安全 - 关键方案来微调不同的基于RL的自主驾驶模型,它们可以降低碰撞率9%,超过Cur-Current Sota方法。代码可在https://github.com/javyduck/chatscene上找到。ChatScene有效地弥合了交通情况的文本描述与实际CARLA模拟之间的差距,从而提供了一种统一的方式,以方便地生成安全至关重要的方案,以进行安全测试和改进AVS。
犯罪现场调查通常发生在复杂的环境中,在复杂的环境中,可能会隐藏,遮挡或分散在混乱的背景中。传统的对象检测方法经常面临此类挑战,导致错过或不准确地识别关键的法医元素。本研究提出了一个自适应深度学习框架,旨在在复杂的犯罪现场中精确的对象检测。通过利用高级卷积神经网络(CNN),基于区域的CNN(R-CNN)和注意机制,提出的模型动态适应了不同的犯罪现场条件,无论大小,方向或遮挡,都可以有效地识别对象。框架集成了多尺度特征提取,上下文感知学习和自适应学习率,以提高准确性和鲁棒性。将Yolov8和掩码R-CNN合并用于实时检测和实例分段,该系统可确保对象定位和分类的高精度。对各种犯罪现场数据集进行了广泛的测试,证明了该模型的出色表现,平均平均精度(MAP)为92.5%,同时显着降低了误报和负面因素。这种适应性方法不仅简化了法医研究,而且还可以最大程度地减少人为错误,为执法机构提供了可靠,有效的工具。未来的研究将着重于将系统的功能扩展到3D犯罪现场重建和跨域法医分析。
摘要 - 隐式表示,例如神经辐射场(NERF),可以通过连续的神经功能在3D场景中绘制颜色,密度和语义。但是,这些模型通常需要手动和仔细的人类数据收集进行培训。本文解决了自主nerf构造的主动探索问题。我们研究代理如何学会有效地探索未知的3D环境,以便在自主性过程中收集的数据能够学习高质量的神经隐式图表示。在四个与机器人相关的下游任务上评估了所学代表的质量:经典的观点渲染,地图重建,计划和姿势改进。我们比较了不同的探索策略的影响,包括基于前沿的基于基础和学习的方法(端到端和模块化)以及针对此问题量身定制的不同奖励功能。经验结果表明,可以使用在看不见的环境中使用一集经验对积极收集的数据进行培训,并且Autonerf是一种经过加固学习训练的模块化勘探策略,使得获得了高质量的NERF,以获得高质量的NERF,以实现经过考虑的下游机器人任务。最后,我们证明,使用Autonerf可以将代理部署到以前未知的场景中,然后通过通过勘探,重建和策略填充的循环来适应场景来自动改善其导航性能。
在2020年1月担任这个角色后,似乎是一个适当的时刻,可以反思我过去五年中学到的东西。第一个(五个,自然!)我了解到的是,很难就真正的共识达成共识。DVB对这一基本原则的承诺有时会导致在与我们行业的需求保持同步方面遇到困难。我们会不时听到包括我自己的挫败感,但我相信DVB能够使正确的行业领导者团结起来,尤其是从竞争公司到共同目标。成功在于,尽管单个公司的利益可能有所不同,但能够遵守这些目标。这仍然是可能的,幸运的是仍然发生。第二。就像雪球一样,创新可以促使进一步的创新。虽然我以前在DVB成员公司中的角色经常与创新有着深远的联系,但我也许并没有期望在发展组织中看到这么多创新。对我来说很明显,由于标准的发展而产生的创新与与专有技术相关的创新一样重要,后者通常是在前者建立的。创建标准也可能是创新的有效引擎,正如我在过去五年中在多个领域所见过的那样。插图可能是DVB-I服务发现功能中的智能集成到DVB本机IP(DVB-NIP)交付解决方案中,从而产生了良好的,进化和一致的媒体交付生态系统。三,不会有任何DVB-T3,S3或SX 3。该领域的几个玩家已经将他们的产品依靠,并添加了自己的不同功能。这不仅是因为天空不是极限(香农教授为我们定义了),而且最重要的是,今天我们的行业挑战已从带宽问题转移到内容发现。因此,我们的“ DVB-I服务发现”
学习以场景图的形式从原始信息组成视觉关系是一项高度挑战的任务,这是由于上下文依赖性的,但是在依赖于场景所在的现场视觉应用程序中至关重要。但是,场景图生成(SGG)中没有当前的方法旨在为下流任务提供有用的图形。相反,主要重点主要是公开数据分布以预测更多细粒关系的任务。据说,所有的关系关系都不相同,至少其中一部分对现实世界应用没有用。在这项工作中,我们介绍了有效的SGG的任务,该任务旨在阐述相关关系的产生,从而促进了在下游任务(例如图像生成)中使用场景图的使用。为了支持进一步的方法,我们根据流行的Visual Genome数据集的注释提出了一个新的数据集,即VG150策划的新数据集。我们通过一组实验表明,该数据集包含比通常在SGG中使用的数据更高质量和多样的注释。最后,我们显示了从场景图1中生成图像生成的任务中该数据集的效率。
迈克尔·温曼(Michael Weinmann)在Karlsruhe技术学院(2003-2009)学习了电气工程和信息技术,并于2016年获得了波恩大学的计算机科学博士学位。然后,他继续担任博士后研究员和讲师,重点关注波恩大学视觉计算系(直到2021年)的计算机视觉和图形,以及X-Rite研究生院的项目协调员在数字材料外观上。2021年,他加入代尔夫特技术大学,担任智能系统系的助理教授。在计算机视觉,计算机图形和机器学习的交汇处工作,他的研究目标是从不同传感器(即RGB或RGB或RGB信息,深度图,多光谱测量等)中获得的图像或视频数据的了解。),重点是对3D场景的准确,有效的捕获以及它们的解释和可视化。因此,特别的重点是基于利用专用的先验(例如结构性或程序性规则,神经先验或物理学知识的机器学习)来开发可靠的解决方案。各自的研究结果用于跨学科的应用程序场景,包括机器人技术,直播场景中的远程敏感/远程操作,医疗应用以及文化遗产,虚拟原型,土木工程,建筑,建筑和艺术的应用。