本文提出了一种基于量子计算的算法来解决单图像超分辨率(SISR)问题。SISR 的一个著名经典方法依赖于成熟的逐块稀疏建模。然而,该领域的现状是深度神经网络(DNN)已表现出远超传统方法的效果。不过,量子计算有望很快在机器学习问题中变得越来越突出。因此,在本文中,我们有幸对将量子计算算法应用于 SISR 这一重要的图像增强问题进行了早期探索。在量子计算的两种范式,即通用门量子计算和绝热量子计算(AQC)中,后者已成功应用于实际的计算机视觉问题,其中量子并行性已被利用来有效地解决组合优化问题。本研究展示了如何将量子 SISR 公式化为稀疏编码优化问题,该问题使用通过 D-Wave Leap 平台访问的量子退火器进行求解。所提出的基于 AQC 的算法被证明可以实现比传统模拟更快的速度,同时保持相当的 SISR 精度 1 。
由于可能存在数据偏差和预测方差,图像去噪是一项具有挑战性的任务。现有方法通常计算成本高。在这项工作中,我们提出了一种无监督图像去噪器,称为自适应双自注意网络(IDEA-Net),以应对这些挑战。IDEA-Net 受益于生成学习的图像双自注意区域,其中强制执行去噪过程。此外,IDEA-Net 不仅对可能的数据偏差具有鲁棒性,而且还通过仅在单个噪声图像上应用具有泊松丢失操作的简化编码器-解码器来帮助减少预测方差。与其他基于单图像的学习和非学习图像去噪器相比,所提出的 IDEA-Net 在四个基准数据集上表现出色。 IDEA-Net 还展示了在低光和嘈杂场景中去除真实世界噪声的适当选择,这反过来有助于更准确地检测暗脸。源代码可在 https://github.com/zhemingzuo/IDEA-Net 获得。
图像去雾是一种减少图像中雾霾、灰尘或雾气影响的方法,以便清晰地查看观察到的场景。文献中存在大量传统和基于机器学习的方法。然而,这些方法大多考虑可见光光谱中的彩色图像。显然,由于热红外光谱的波长较长,受雾霾的影响要小得多。但远距离观测期间的大气扰动也会导致热红外 (TIR) 光谱中的图像质量下降。在本文中,我们提出了一种为 TIR 图像生成合成雾的方法。然后,我们分析了现有的盲图像质量评估措施雾感知密度评估器 (FADE) 对 TIR 光谱的适用性。我们进一步全面概述了当前图像去雾的最新技术,并通过经验表明,许多最初为可见光图像设计的方法在应用于 TIR 光谱时表现得出奇的好。这在最近发布的 M3FD 数据集上进行的实验中得到了证实。
从单目图像重建3D物体是计算机视觉领域的一个基本问题。高效的重建系统能够开辟广泛的应用领域,包括增强现实、电影制作和制造业。单目3D重建也是一个复杂的逆问题:虽然可见表面可以通过阴影估计,但预测遮挡表面需要强大的3D物体先验知识。我们的领域已经在两个不同的方向上出现了分歧:前馈回归[2、10、19、24、25、27、37、53、54、59-62、65、66、69]和基于扩散的生成[6、8、9、26、29、31-35、39、46-48、68、71]。尽管在两个方向上都取得了重大进展,但每个方向都有根本的局限性。基于回归的模型在粘附图像中的可见表面方面非常有效,并且推理速度通常很快。然而,它们对图像和 3D 之间的双射映射做出了过于简单的假设。这一假设在学习目标中引入了模糊性,导致遮挡区域的表面和纹理估计不佳。另一方面,基于扩散的方法是生成性的,不能预测统计平均值。然而,在建模高分辨率 3D 时,它们在推理时的迭代采样计算效率低下。此外,[27] 等先前的研究表明,扩散生成的 3D 模型与输入图像中可见表面的对齐效果较差。我们如何才能兼顾两者的优点而又避免它们的局限性?有鉴于此,我们提出了 SPAR3D,它将 3D 重建过程分为两个阶段:点采样阶段和网格划分阶段。点采样阶段使用扩散模型生成稀疏点云,然后是网格划分阶段,将点云转换为高度详细的网格。我们的主要思想是将不确定性建模转移到点采样阶段,在此阶段,点云的低分辨率允许快速迭代采样。随后的网格划分阶段利用局部图像特征将点云转换为具有高输出保真度的详细网格。减少点云网格划分的不确定性进一步促进了逆渲染的无监督学习,从而减少了纹理中的烘焙照明。我们的两阶段设计使 SPAR3D 的性能显著优于以前的回归方法,同时保持了高计算效率和对输入观测的保真度。我们方法的一个关键设计选择是使用点云来连接两个阶段。为了确保快速重建,我们的中间表示需要轻量级,以便能够高效生成。另一方面,它应该为网格划分阶段提供足够的指导。这
我们研究了从一组自动提取自单幅室内图像的线段中生成场景的合理解释的问题。我们表明,即使存在遮挡物体,我们也可以识别建筑物内部的三维结构。通过几何推理提出了几种物理上有效的结构假设,并进行了验证,以找到最适合线段的模型,然后将其转换为完整的 3D 模型。我们的实验表明,我们从线段恢复的结构与使用完整图像外观的方法相当。我们的方法展示了如何使用一组描述线段组之间几何约束的规则来修剪场景解释假设并生成最合理的解释。