摘要。3 D传感是自动驾驶汽车的基本任务。其部署通常依赖于对齐的RGB摄像机和激光镜头。谨慎的同步和校准,在LiDAR投影的深度图中,系统的错位持续存在。这是由于两个传感器之间的物理基线距离所致。工件通常反映为背景激光雷达错误地投射到前景上,例如汽车和行人。KITTI数据集使用立体声摄像机作为启发式解决方案来删除工件。但是,大多数AV数据集(包括Nuscenes,Waymo和DDAD)都缺少立体声图像,使Kitti解决方案不适用。我们提出了Replay,这是一种无参数的分析解决方案,用于删除投影伪像。我们在假设的虚拟LiDAR相机和RGB摄像机之间构建了一个Binocular视觉系统。然后,我们通过使用拟议的分析溶液确定面孔闭塞来删除投影伪影。我们显示出具有无伪像的深度图的最先进(SOTA)单眼估计器和3 d对象探测器的一致改进。
摘要 隐式神经表征已成为表示图像和声音等信号的强大范例。这种方法旨在利用神经网络来参数化信号的隐式函数。然而,在表示隐式函数时,传统神经网络(例如基于 ReLU 的多层感知器)在准确建模信号的高频分量方面面临挑战。最近的研究开始探索使用傅里叶神经网络 (FNN) 来克服这一限制。在本文中,我们提出了量子隐式表示网络 (QIREN),一种新的 FNN 量子泛化。此外,通过理论分析,我们证明了 QIREN 比经典 FNN 具有量子优势。最后,我们在信号表示、图像超分辨率和图像生成任务中进行了实验,以展示 QIREN 与最先进 (SOTA) 模型相比的卓越性能。我们的工作不仅将量子优势融入隐式神经表示中,而且还揭示了量子神经网络的一个有希望的应用方向。我们的代码可在 https://github.com/GGorMM1/QIREN 获得。
本研究论文深入研究了深入增强学习(DRL)在资产级不可知论投资组合优化中的应用,将行业级方法与定量融资相结合。这种整合的核心是我们的强大框架,它不仅将高级DRL算法与现代计算技术合并,而且还强调了严格的统计分析,软件工程和监管合规性。据我们所知,这是第一个研究,将财务强化学习与来自机器人技术和数学物理学的SIM到现实方法结合起来,从而将我们的框架和参数丰富了这种独特的观点。我们的研究最终引入了Alphaoptimizernet,这是一种专有的强化学习代理(和相应的库)。从最新的(SOTA)文献和我们独特的跨学科方法论的综合发展中,Alphaoptimizernet表明了令人鼓舞的风险回报 - 在各种资产类别上具有逼真的约束。这些初步结果强调了我们框架的实际功效。随着金融部门越来越多地吸引了先进的算法解决方案,我们的研究将理论进步带入了现实世界中的适用性,提供了一个模板,以确保在这一技术驱动的未来中的安全性和强大的标准。
摘要 自动驾驶决策是自动驾驶系统的重要组成部分,用于向无人驾驶车辆告知和更新目标运动情况。然而,由于野外动态交通场景中交通目标的尺度差异,端到端的自动驾驶决策仍然是一个巨大的挑战。针对这些问题,该文提出了一种结合注意机制和时空特征提取的新模型。具体而言,对于具有尺度差异的交通目标的重要空间信息,将高度H、宽度W和通道C的空间维度相互独立,以构建稀疏空间注意图。此外,通过在每个主干块的末端修剪特征图元素来训练空间网络,使空间网络的两个子网络的准确率分别提高了2.3%和3.9%。然后将提取出的空间信息与先前的速度作为输入联合输入到时间序列网络中,以获得车辆的转向角度和速度。在公开虚拟数据集上的实验表明,该模型的预测准确率达到85.8%,与其他SOTA模型相比,分别提升了4.8%和2.2%。
我们引入了 N ATURAL P LAN ,这是一个自然语言中的现实规划基准,包含 3 个关键任务:旅行规划、会议规划和日历安排。我们将评估重点放在 LLM 的规划能力上,并提供关于任务的完整信息,方法是将 Google 航班、Google 地图和 Google 日历等工具的输出作为模型的上下文。这样就无需使用工具使用环境来评估规划上的 LLM。我们观察到 N ATURAL P LAN 是针对最先进模型的具有挑战性的基准。例如,在旅行规划中,GPT-4 和 Gemini 1.5 Pro 分别只能实现 31.1% 和 34.8% 的解决率。我们发现,随着问题复杂性的增加,模型性能急剧下降:当有 10 个城市时,所有模型的性能都低于 5%,这凸显了 SoTA LLM 在自然语言规划方面存在巨大差距。我们还对 N ATURAL P LAN 进行了广泛的消融研究,以进一步阐明自我校正、少量泛化和具有长上下文的上下文规划等方法对改进 LLM 规划的 (不) 有效性。
我们介绍了Exo2EGO-V,这是一种新颖的以外为中心为中心的基于质量扩散的视频生成方法,用于日常生活熟练的人类活动,其中稀疏4-视图中心的观点在现场周围配置了360°。由于外主和以自我为中心的观点和动态运动和现实世界中日常生活环境之间的显着差异,此任务尤其具有挑战性。为了应对这些挑战,我们首先提出了一种新的基于扩散的多视图外科编码器,以从多视图exentric视频中提取密集的多尺度功能,作为以自我为中心视频的外观条件。然后,我们在提供空间对立的自我中心特征之前设计了一个自以为是至中心的视图翻译,作为对以egipentric视频扩散模型的输入的串联指导。最后,我们将时间关注层引入我们的以自我为中心的视频扩散管道中,以改善温度一致性跨eg中心框架。广泛的实验表明,Exo2EGO-V从EGO-EXO4D数据集中显着超过SOTA方法,而LPIP的平均为35%。我们的代码和模型将在https://github.com/showlab/exo2ego-v上提供。
摘要。受到跨各个应用领域的反相反优化(IO)的最新成功的启发,我们提出了一种新型的离线增强学习(ORL)算法,用于连续状态和动作空间,利用IO文献中的凸损失函数,称为“凸丢失函数”。为了减轻在ORL问题中通常观察到的分布变化,我们进一步采用了强大的,非毒性模型预测控制(MPC)专家,使用来自模型不匹配的内在信息来指导动力学的名义模型。与现有文献不同,我们强大的MPC专家享有确切且可拖延的凸重新印象。在这项研究的第二部分中,我们表明,受提议的凸损失功能培训的IO假设类别具有丰富的表现力,并且在使用Mujoco基准的低DATA基准中的最先进的方法(SOTA)方法进行了竞争性绩效,同时使用了三个较少的资源,需要很少有参数,几乎需要。为了促进结果的可重复性,我们提供了实施提出算法和实验的开源软件包。
摘要:受脑启发的计算机架构有助于嵌入式 AI 应用实现低功耗、低延迟的深度神经网络推理。硬件性能主要取决于推理过程中非零激活(即事件)的数量。因此,我们提出了一种新颖的事件抑制方法,称为 ELSE,该方法通过基于线的稀疏性探索来提高推理效率。具体而言,它利用激活图中相邻线之间的空间相关性来减少网络事件。与传统处理相比,ELSE 可将事件触发的计算量在各种网络架构中减少 3.14 ∼ 6.49 ×(用于对象检测)和 2.43 ∼ 5.75 ×(用于姿势估计)。此外,我们表明,将 ELSE 与其他事件抑制方法相结合可以显著提高空间抑制的计算节省量,或将时间抑制的状态内存占用量减少 2 × 以上。后者缓解了时间执行超出真实嵌入式平台资源限制的挑战。这些结果凸显了 ELSE 显著的事件抑制能力及其为 SOTA 方法提供补充性能增强的能力。
抽象图像着色是计算机视觉中的一个众所周知的问题。但是,由于任务的不良性质,图像着色本质上是具有挑战性的。尽管研究人员已经尝试了几次尝试使着色管道自动化,但由于缺乏调理,这些过程通常会产生不切实际的结果。在这项工作中,我们试图将文本描述与要着色的灰度图像一起集成为辅助条件,以提高着色过程的保真度。据我们所知,这是将文本条件纳入着色管道中的首次尝试之一。为此,已经提出了一个新颖的深网,该网络采用了两个输入(灰度图像和各自的编码文本描述),并尝试预测相关的颜色范围。由于各自的文本描述包含场景中存在的对象的颜色信息,因此文本编码有助于提高预测颜色的整体质量。已使用SSIM,PSNR,LPISP(分别达到0.917,23.27,0.223)评估了所提出的模型。这些定量指标表明,在大多数情况下,提出的方法优于SOTA技术。
先前的行人重新识别 (Re-ID) 模型旨在关注图像中最具辨别力的区域,而当由于相机视点变化或遮挡导致该区域缺失时,其性能可能会受到影响。为了解决这个问题,我们提出了一种名为分层双向特征感知网络 (HBFP-Net) 的新模型来关联多级信息并相互加强。首先,通过低秩双线性池化建模跨级特征对的相关图。然后,基于相关图,采用双向特征感知 (BFP) 模块来丰富高级特征的注意区域,并学习低级特征中的抽象和特定信息。然后,我们提出了一种新颖的端到端分层网络,该网络集成了多级增强特征,并将增强的低级和中级特征输入到后续层以重新训练新的强大网络。更重要的是,我们提出了一种新的可训练广义池化,它可以动态选择特征图中所有位置的任意值进行激活。在包括 Market-1501、CUHK03 和 DukeMTMC-ReID 在内的主流评估数据集上进行的大量实验表明,我们的方法优于最近的 SOTA Re-ID 模型。