最近,模型合并技术已浮出水面,作为将多个单元模型组合为单个多泰模型组合的解决方案。但是,该领域的先前努力需要进行其他培训或细调过程,或者要求模型具有相同的预先训练的初始化。在这项工作中,我们在W.R.T.先前的工作中确定了一个缺点。单位相似性在重量空间和激活空间中的不一致性。为了解决这种不一致,我们提出了一个创新的模型合并框架,该模型是在双空间约束(MUDSC)下合并的。具体而言,我们主张探索位于双重空间中统一高相似性的区域中的置换矩阵,而不是仅仅使单个空间的目标最大化,这是通过激活和重量相似性矩阵的线性组合实现的。为了提高可用性,我们还对群体结构进行了对企业的适应,包括多头关注和群体标准化。全面的实验比较表明,MUDSC可以很明显地提高具有各种任务组合和体系结构的合并模型的性能。此外,多任务损失景观中合并模型的可视化表明,MUDSC使合并的模型能够驻留在重叠段中,其中每个任务都有统一的较低损失。我们的代码可在https://github.com/zju-vipa/training_free_model_merging上公开获取。
单光摄像机的惊人发展为科学和工业成像创造了前所未有的机会。但是,这些1位传感器通过这些1位传感器进行的高数据吞吐量为低功率应用创造了重要的瓶颈。在本文中,我们探讨了从单光摄像机的单个二进制框架生成颜色图像的可能性。显然,由于暴露程度的差异,我们发现这个问题对于标准色素化方法特别困难。我们论文的核心创新是在神经普通微分方程(神经ode)下构建的暴露合成模型,它使我们能够从单个观察中产生持续的暴露量。这种创新可确保在Col-Orizers进行的二进制图像中保持一致的曝光,从而显着增强了着色。我们演示了该方法在单图像和爆发着色中的应用,并显示出优于基准的生成性能。项目网站可以在https://vishal-s-p.github.io/projects/ 2023/generative_quanta_color.html
中世纪手稿的稳定数字化正在迅速改变古编目的领域,这挑战了关于手写和书籍生产的假设。这一发展已经确定了历史上重要的文字文本,甚至个人抄写本身。例如,已故中世纪英语文学的学者确定了许多文学手稿的抄写者,以及伦敦政府秘书在塑造文学文化中的重要作用。然而,传统的古学尚无协议的方法或固定标准,可以将手写归因于特定社区,时期或抄写员。古存者采用的方法本质上是定性的,并且存在着人的偏见。即使是那些挥舞着强大的“古征象者”的人也无法声称客观性。计算机视觉提供了在作者识别和检索基准方面具有出色表现的解决方案,但是古老社区并未广泛采用这些方法,因为它们往往不会在实践中坚持下去。在这项工作中,我们试图用旨在自动化古征学的软件包桥接鸿沟,而是要增强古造型者的眼睛。我们介绍了自动手写识别工具,可以在视觉上快速理解和评估结果,并在归因于以前未知的抄写员时,将其用作众多专家的一项功能。我们还通过分析托马斯·霍克夫夫(Thomas Hoccleve)撰写的几个物品(私人印章的高产店员),也是一个重要的十五世纪英语诗人,我们还为我们的软件展示了一个用例。
以生物风格的活动相机跟踪近年来引起了人们的兴趣。现有的作品要么利用对齐的RGB和事件数据进行准确跟踪,要么直接学习基于事件的跟踪器。前者会产生较高的推理成本,而后者可能容易受到嘈杂事件或稀疏空间分辨率的影响。在本文中,我们提出了一个新型的分层知识蒸馏框架,该框架可以在培训期间完全利用多模式 /多视图信息,以促进知识转移,使我们能够仅使用事件信号来实现测试过程中高速和低潜伏期视觉跟踪。特别是,基于教师变压器的多模态跟踪框架首先是通过同时喂食RGB框架和事件流来训练的。然后,我们设计了一种新的分层知识蒸馏策略,其中包括成对相似性,功能表示和基于响应地图的知识蒸馏,以指导学生变形金刚网络的学习。在术语中,由于现有的基于事件的跟踪数据集都是低分辨率(346×260),因此我们提出了名为EventVot的第一个大规模高分辨率(1280×720)数据集。它包含1141个视频,并涵盖了许多类别,例如行人,车辆,无人机,乒乓球等。对低分辨率(Fe240Hz,Vi-Sevent,Coesot)和我们新提出的高分辨率EventVot数据集的进行了实验进行了实验
事件传感器提供高时间分辨率的视觉感应,这使其非常适合感知快速视觉效果,而不会遭受运动模糊的困扰。机器人技术和基于视觉的导航中的某些应用需要3D感知在静态相机前进行圆形或旋转的物体,例如恢复对象的速度和形状。设置等于用轨道摄像头观察静态对象。在本文中,我们提出了基于事件的结构 - 轨道(ESFO),其目的是同时重建从静态事件摄像头观察到的快速旋转对象的3D结构,并恢复相机的等效轨道运动。我们的贡献是三重的:由于最新的事件特征跟踪器无法处理由于旋转运动而导致的定期自我遮挡,因此我们根据时空聚类和数据关联开发了一种新颖的事件特征跟踪器,可以更好地跟踪事件数据中有效特征的螺旋螺旋传播。然后将特征轨道馈送到我们的新颖因素基于图形的结构后端端,该结构从后端进行计算轨道运动插曲(例如自旋速率,相对旋转轴),从而最大程度地减少了重新投影误差。进行评估,我们在旋转运动下生成了一个新事件数据集。比较与地面真理表示ESFO的功效。
单光子光检测和范围(LIDAR)系统通常配备一系列检测器,以提高空间分辨率和传感速度。但是,考虑到激光跨场横跨场景产生的固定量磁通量,当更多像素在单位空间中堆积时,每像素信号到噪声(SNR)将减小。这在传感器阵列的空间分辨率与每个像素的SNR之间的空间分辨率之间提出了基本的权衡。探索了这种基本限制的理论表征。通过得出光子竞争统计量并引入一系列新的近似技术,得出了时间延迟的最大样品估计器的平均平方误差(MSE)。理论预测与模拟和实际数据良好。
事件相机具有高时间分辨率、高动态范围、低功耗和高像素带宽等特点,为特殊环境中的物体检测提供了独特的功能。尽管有这些优势,事件数据固有的稀疏性和异步性对现有的物体检测算法提出了挑战。脉冲神经网络 (SNN) 受到人脑编码和处理信息方式的启发,为这些困难提供了潜在的解决方案。然而,在当前的实现中,它们在使用事件相机进行物体检测方面的性能受到限制。在本文中,我们提出了脉冲融合物体检测器 (SFOD),一种基于 SNN 的简单有效的物体检测方法。具体而言,我们设计了一个脉冲融合模块,首次实现了应用于事件相机的 SNN 中不同尺度特征图的融合。此外,通过整合我们在 NCAR 数据集上对主干网络进行预训练期间进行的分析和实验,我们深入研究了脉冲解码策略和损失函数对模型性能的影响。从而,我们建立了基于 SNN 的当前最佳分类结果,在 NCAR 数据集上实现了 93.7% 的准确率。在 GEN1 检测数据集上的实验结果表明,SFOD 实现了 32.1% 的当前最佳 mAP,优于现有的基于 SNN 的方法。我们的研究不仅强调了 SNN 在事件摄像机物体检测中的潜力,而且推动了 SNN 的发展。代码可在 https://github.com/yimeng-fan/SFOD 获得。
几何模型拟合是一个具有挑战性但又十分基础的计算机视觉问题。最近,量子优化已被证明可以增强单模型情况的稳健拟合,同时多模型拟合的问题仍未得到解决。为了应对这一挑战,本文表明后一种情况可以从量子硬件中显著受益,并提出了第一种多模型拟合 (MMF) 的量子方法。我们将 MMF 表述为一个问题,现代绝热量子计算机可以对其进行有效采样,而无需放宽目标函数。我们还提出了一种迭代和分解版本的方法,该方法支持真实世界大小的问题。实验评估在各种数据集上都显示出有希望的结果。源代码可在以下位置获得:https://github.com/FarinaMatteo/qmmf 。
在这项工作中,我们提出了一种新颖的歧视性框架,用于灵巧的掌握生成,称为d外部g rasp tr ansformer(dgtr),能够通过仅使用一个向前的通行方式处理对象点云来预测一组可行的抓握姿势。我们将敏捷的掌握生成作为设定的预测任务,并为其设计一个基于变压器的握把模型。但是,我们确定此设置的预测范式在灵活的掌握领域遇到了几种优化的挑战,并导致限制性能。为了解决这些问题,我们提出了培训和测试阶段的渐进策略。首先,提出了动态静态匹配训练(DSMT)策略,以增强训练阶段的光学稳定性。第二,我们使用一对对抗性损失来实现对抗平衡的测试时间适应(ABTTA),以提高测试阶段的掌握质量。dexgraspnet数据集的实验结果证明了DGTR可以预测具有高质量和多样性的灵活掌握姿势的能力。值得注意的是,在保持质量高的同时,DGTR Sigsigs所预测的Grasp的多样性明显优于先前的多个指标,而没有任何数据预处理。代码可在https://github.com/isee-laboratory/dgtr上找到。
主动深度传感可实现强大的深度估计,但通常受感应范围的限制。天真地增加光学能力可以改善传感范围,但对许多应用(包括自主机器人和增强现实)的视力安全关注。在本文中,我们提出了一个自适应的主动深度传感器,该传感器可以共同介绍范围,功耗和眼部安全。主要观察结果是,我们不需要将光模式投影到整个场景,而只需要在关注的小区域中,在应用程序和被动立体声深度所需的深度失败的情况下。理论上将这种自适应感知方案与其他感应策略(例如全帧投影,线扫描和点扫描)进行了比较。我们表明,为了达到相同的最大感应距离,提出的方法在最短(最佳)眼部安全距离时会消耗最小的功率。我们用两个硬件原型实现了这种自适应感测方案,一个具有仅相位空间光调制器(SLM),另一个带有微电动机械(MEMS)镜像和衍射光学元素(DOE)。实验结果验证了我们方法的优势,并证明了其能力自适应地获得更高质量的几何形状。请参阅我们的项目网站以获取视频结果和代码: