许多现有的运动预测方法都依赖于符号感知输出来生成代理轨迹,例如边界框,路图信息和traf-fight。这种符号表示是现实世界的高级表现,它可能会使运动预测模型容易受到感知错误的影响(例如,在检测开放式录音障碍时失败),而缺少场景中的显着信息(例如,糟糕的道路条件)。另一种范式是从原始传感器中端到端学习。但是,这种方法缺乏解释性,需要大量的培训资源。在这项工作中,我们提出将视觉世界的标记化为一组紧凑的场景元素,然后利用预先训练的图像基础模型和LiDAR神经网络以开放式播音方式进行编码所有场景元素。图像基础模型使我们的场景令牌可以编码开放世界的一般知识,而LiDAR神经网络编码几何信息。我们提出的表示形式可以有效地用几百个令牌编码多帧多模式观察,并且与大多数基于变压器的体系结构兼容。为了评估我们的方法,我们使用了带有凸轮嵌入的Waymo开放运动数据集。通过Waymo开放运动数据集进行的实验表明,我们的方法会导致对最先进的表现的显着改善。
要允许复制或重新出版,请联系美国航空与宇航学院1801 Alexander Bell Drive,Suite 500,Reston,VA,20191–4344
协作感知允许在多个代理(例如车辆和基础)之间共享信息,以通过交流和融合来获得对环境的全面看法。当前对多机构协作感知系统的研究通常会构成理想的沟通和感知环境,并忽略了现实世界噪声的效果,例如姿势噪声,运动模糊和感知噪声。为了解决这一差距,在本文中,我们提出了一种新颖的运动感知robus-Busban通信网络(MRCNET),可减轻噪声干扰,并实现准确且强大的协作感知。MRCNET由两个主要组成部分组成:多尺度稳健融合(MRF)通过驱动跨语义的多尺度增强的聚集到不同尺度的融合特征,而运动增强机制(MEM)捕获运动上下文,以补偿动作对物体引起的信息,从而解决了姿势噪声。对流行的协作3D对象检测数据集的实验结果表明,在噪声方案中,MRCNET优于使用较少的带宽感知性能的噪声方案。我们的代码将在https://github.com/indigochildren/collaborative-ception-mrcnet上进行重新释放。
[1]可根据旋转不变性的最小值RNA结构基序的可扩展且可解释的识别,撰写的,Zhou,Malik,Tang,Mathews和Huang。重新梳理202 5。预印本:https://arxiv.org/abs/2402.17206。[2]通过竞争对手结构的产生和结构分解,Zhou,Tang,Mathews和Huang通过竞争结构的产生和结构分解识别。RECOMB 2024,LNCS 14758的RECOMB会议记录,Springer。https://arxiv.org/abs/2311.08339 [3] RNA设计通过structure-ware Multi-Frontier合奏优化,作者:Zhou,Dai,Li,Li,Ward,Mathews和Huang。ISMB 2023的会议记录;生物信息学,39(supp。 1)。 https://doi.org/10.1093/bioinformatics/btad252ISMB 2023的会议记录;生物信息学,39(supp。1)。https://doi.org/10.1093/bioinformatics/btad252
2021 年 12 月 31 日——全动态视频 (FMV) 中的人工智能用于各种运营环境中的决策支持和业务关键型工作流程的自动化。
实习飞行软件、计算机视觉和人工智能瑞士苏黎世公司:Daedalean 是一家总部位于苏黎世的初创公司,由前谷歌和 SpaceX 工程师创立,他们希望在未来十年内彻底改变城市航空旅行。我们结合计算机视觉、深度学习和机器人技术,为飞机开发最高级别的自主性(5 级),特别是您可能在媒体上看到的电动垂直起降飞机。如果您加入我们的实习,您将有机会与经验丰富的工程师一起工作,他们来自 CERN、NVIDIA、伦敦帝国理工学院或……自治系统实验室本身。您将构建塑造我们未来的尖端技术。最重要的是,我们还提供在瑞士阿尔卑斯山试飞期间加入我们飞行员的机会。项目:不同团队提供机会。我们想更多地了解您,以及如何让您的实习成为双方宝贵的经历。告诉我们你一直在做什么,以及你想在我们的团队中从事什么工作。它与深度学习有关吗?状态估计?运动规划?计算机视觉?或者别的什么?向我们展示你的热情所在。如果我们可以在你想从事的领域提供指导和有趣的机会,我们将一起敲定细节。资格: 强大的动手 C++ 证明解决问题的能力 如何申请: 将您的简历/履历发送至 careers@daedalean.ai 。请告诉我们一些关于您自己的信息,为什么您认为自己适合我们以及为什么我们适合您。
版权所有 © 2023 知识、创新与企业会议 版权所有 © 2023 个人作者* 保留所有权利。未经出版商书面许可,不得以任何形式或任何方式(电子、机械、影印、录音或其他方式)复制、存储在检索系统中或传播本出版物的任何部分。首次出版于 2023 年 由 KIE Conference 在英国伦敦出版 由 Corporate Document Services(英国英格兰利兹)在英国印刷和装订 如需许可请求,请通过以下电子邮件地址写信给出版商: 电子邮件:Kieteam@kiecon.org https://kiecon.org/creativity-books/ ISBN 978-1-85924-261-2 创造力书籍卷中的其他标题 卷 IX:庆祝巨人和开拓者:创造力研究和相关领域名人录 A-Z(2021 年) 卷 VIII:70 年的创造力研究:JP Guildford 的角色和当今的焦点(2020 年) 卷 VII:纪念当代现代创造力之父 E. Paul Torrance 诞辰 105 周年(2019 年) 卷 VI:STEM 教育中的创造力和创新(2018 年) 卷 V:创造力、创新和幸福感 (2017) 第 IV 卷:艺术、科学和技术中的创造力 (2016) 第 III 卷:KIE 创造力手册 (2015) 第 II 卷:商业中的创造力 (2014) 第 I 卷:创造力:过程、产品、个性、环境和技术 (2013) 建议章节引用(示例):Kaufman, J. C. & Zheng, M. (2023)。创造力与未来:技术、全球化和善,Reisman, F.(编辑),(第321-325 页)伦敦:KIE 出版物。可在线获取:https://kiecon.org/creativity-books/ [或插入您的大学存储库网址] 创造力书籍卷 KIE 出版物
由于其广泛的应用范围,从文本描述中产生人类动作已引起了越来越多的研究兴趣。但是,只有少数作品将人类场景的互动与文本条件一起考虑,这对于视觉和物理现实主义至关重要。本文提出了在3D门场景中产生人类动作的任务,鉴于人类习惯的文本描述。由于文本,场景和运动的多种形式性质以及对空间推理的需求,此任务提出了挑战。为了应对这些挑战,我们提出了一种新方法,将复杂的概率分解为两个更可管理的子问题:(1)目标对象的语言接地和(2)以对象为中心的信息产生。对于目标对象的语言基础,我们利用大型语言模型的力量。对于运动生成,我们设计了一个以对象为中心的场景代表生成模型,以专注于目标对象,从而降低场景的复杂性并促进人类运动与对象之间关系的建模。实验证明了与基准相比,我们的方法的更好运动质量并验证了我们的设计选择。代码将在链接上可用。
我们专注于一项非常具有挑战性的任务:在夜间动态场景时进行成像。大多数以前的方法都依赖于常规RGB摄像机的低光增强。,他们不可避免地会在夜间长时间的长时间和动作场景的动作模糊之间面临困境。事件摄像机对动态变化的反应,其时间分辨率较高(微秒)和较高的动态范围(120dB),提供了替代解决方案。在这项工作中,我们使用活动摄像头提出了一种新颖的夜间动态成像方法。具体来说,我们发现夜间的事件表现出时间段落的特征和空间非平稳分布。conse-我们提出了一个夜间活动重建网络(NER-NET),主要包括可学习的事件时间戳校准模块(LETC),以使临时尾随事件和非均匀照明式落后事件保持一致,以稳定事件的spatiotalmorporal分布。此外,我们通过同轴成像系统构建了配对的真实低光事件数据集(RLED),这包括空间和时间对齐的图像GTS和低光事件的64,200个。广泛的实验表明,在视觉质量和泛化能力方面,所提出的方法优于最先进的方法。
信息检索是一个不断发展且至关重要的搜索域。对高质量人类运动数据的大量需求,尤其是在在线获取中,导致人类运动研究工作的激增。先前的作品主要集中在双模式学习上,例如文本和运动任务,但是很少探索三模式学习。直觉上,额外的引入方式可以丰富模型的应用程序方案,更重要的是,对额外模式的适当选择也可以充当中介,并增强其他两个不同方式之间的对齐方式。在这项工作中,我们介绍了Lavimo(语言视频 - 动作对齐),这是一个三模式学习的新型框架,将以人为中心的视频整合为一种额外的方式,从而可以在文本和运动之间弥合差距。更重要的是,我们的方法利用了一种专门设计的注意机制来增强文本,视频和运动方式之间的一致性和协同作用。经验,我们对HumanML3D和Kit-ML数据集的结果表明,Lavimo在各种与运动相关的跨模式检索任务中实现了最先进的表现,包括文本到动作,动作到运动,视频,视频到视频,动作和动态。我们的项目网页可以在https://lavimo2023.github.io/lavimo/中找到。
