本文提出了一种基于量子计算的算法来解决单图像超分辨率(SISR)问题。SISR 的一个著名经典方法依赖于成熟的逐块稀疏建模。然而,该领域的现状是深度神经网络(DNN)已表现出远超传统方法的效果。不过,量子计算有望很快在机器学习问题中变得越来越突出。因此,在本文中,我们有幸对将量子计算算法应用于 SISR 这一重要的图像增强问题进行了早期探索。在量子计算的两种范式,即通用门量子计算和绝热量子计算(AQC)中,后者已成功应用于实际的计算机视觉问题,其中量子并行性已被利用来有效地解决组合优化问题。本研究展示了如何将量子 SISR 公式化为稀疏编码优化问题,该问题使用通过 D-Wave Leap 平台访问的量子退火器进行求解。所提出的基于 AQC 的算法被证明可以实现比传统模拟更快的速度,同时保持相当的 SISR 精度 1 。
高光谱图像 (HSI) 分类旨在为每个像素分配一个唯一标签,以识别不同土地覆盖的类别。现有的 HSI 深度学习模型通常采用传统学习范式。作为新兴机器,量子计算机在嘈杂的中尺度量子 (NISQ) 时代受到限制。量子理论为设计深度学习模型提供了一种新的范式。受量子电路 (QC) 模型的启发,我们提出了一种受量子启发的光谱空间网络 (QSSN) 用于 HSI 特征提取。所提出的 QSSN 由相位预测模块 (PPM) 和受量子理论启发的类测量融合模块 (MFM) 组成,以动态融合光谱和空间信息。具体而言,QSSN 使用量子表示来表示 HSI 长方体,并使用 MFM 提取联合光谱空间特征。量子表示中使用了 HSI 长方体及其由 PPM 预测的相位。使用 QSSN 作为构建块,我们进一步提出了一种端到端的量子启发式光谱空间金字塔网络 (QSSPN),用于 HSI 特征提取和分类。在这个金字塔框架中,QSSPN 通过级联 QSSN 块逐步学习特征表示,并使用 softmax 分类器进行分类。这是首次尝试将量子理论引入 HSI 处理模型设计。在三个 HSI 数据集上进行了大量实验,以验证所提出的 QSSPN 框架相对于最新方法的优越性。
生成模型的最新进展导致了模型,这些模型既可以为大多数文本输入产生现实和相关的信息。这些模型每天都用于生成数百万张图像,并具有巨大影响诸如生成艺术,数字营销和数据增强等领域。鉴于它们的影响力,重要的是要确保生成的内容反映全球的伪影和周围环境,而不是过分代表世界的某些地区。在本文中,我们使用众包研究的研究衡量了通过dall·e 2产生的普通名词(例如房屋)的地理代表,以及稳定的扩散模型,其中包括27个国家 /地区的540名参与者。为了有意地指定没有国家名称的意见,生成的图像最反映了美国之后是印度的周围,而顶级世代很少反映出所有其他国家的周围环境(平均得分少于5分中的3个)。在输入中指定国家名称的代表性增加了1。平均在5-点李克特(Dall)的李子量表上为44点。75对于稳定的扩散,许多国家的超高分数仍然很低,这突出了将来模型在地理上更具包含的需求。最后,我们研究了量化使用用户研究的产生图像的地理代表性的可行性。1
参考图像分割(RIS)的目的是通过相应的静脉语言表达式精确地分段图像中的对象,但依赖于成本密集的掩码注释。弱监督的RIS因此从图像文本对学习到像素级语义,这是用于分割细粒面罩的挑战。自然而然地提高了分割精度,是用图像分割模型SAM赋予弱监督的RI。尽管如此,我们观察到,简单地整合SAM会产生有限的收益,甚至由于不可避免的噪声而导致性能回归,而过度关注对象部分的挑战和挑战。在本文中,我们提出了一个创新的框架,即P PPT(PPT),与拟议的多源课程学习策略合并,以解决这些挑战。具体来说,PPT的核心是一个点发生器,它不仅可以利用Clip的文本图像对准能力和SAM强大的掩膜生成能力,而且还产生了负点提示,以固有,有效地解决嘈杂和过度的焦点问题。在适当的情况下,我们引入了一种以对象为中心图像的课程学习策略,以帮助PPT逐渐从更简单但精确的语义一致性中学习到更复杂的RIS。实验表明,我们的PPT在MIOU上显着胜过弱监督的技术,分别为11.34%,14.14%和6.97%,分别为6.97%。
课程:ENGG5104课程ID:011157 AFF日期:2024-07-01 CRSE状态:主动批准。状态:批准的[新课程]图像处理和计算机视觉图像处理及计算机视觉本课程将涵盖图像处理和计算机视觉中的基本知识和高级主题,包括特征检测,细分,运动估算,全景构建,3D重建,场景检测和分类,颜色图像处理和恢复。还将引入计算机图形中的应用程序,包括图像转换和摄像机校准。将讨论相关算法和数学背景的基本概念。
基于扩散的生成模型在合成和操纵图像具有巨大的图像方面表现出了令人鼓舞的结果,其中文本到图像模型及其后续作品在学术界和行业中都具有很大的影响。编辑真实图像时,用户通常希望对不同元素具有直观而精确的控制(即对象)组成图像,并不断地操纵它们。我们可以根据图像中的单个观察的控制级别对现有的图像编辑方法进行分类。一条工作涉及使用文本提示来操纵图像[2,15,24,27]。由于很难与文本同时描述多个对象的形状和外观,因此在对象级别上对细粒度控制的能力有限。同时,迅速的工程使操纵任务乏味且耗时。另一项工作线使用低级调理信号,例如Hu等人。[18],Patashnik等。[34],Zeng等。[58],草图[50],图像[5,47,54]编辑图像。但是,其中大多数作品要么属于迅速的工程陷阱,要么无法独立操纵多个对象。与以前的作品不同,我们的目标是独立控制组成图像的多个对象的正确条件,即对象级编辑。我们表明,我们可以在对象级编辑框架下制定各种图像编辑任务,从而实现全面的编辑功能。
摘要。事件摄像机作为具有较高dynamic范围的生物启发的视觉传感器,能够解决局部过度繁殖或不受欢迎的问题,即在具有高动态范围或波动的光照条件下,常规的基于框架的摄像机会遇到的常规基于框架的摄像机。由于两种相机之间的模态差距,简单的融合是不可行的。此外,由摄像机位置和框架速率偏差引起的幽灵伪影也会影响最终融合图像的质量。为了解决问题,本文提出了一个联合框架,将当地暴露的帧与事件摄像机捕获的事件流相结合,以在高动态范围场景中以偏斜的纹理增强图像。具体来说,使用轻量级的多尺度接收场块用于从事件流到帧的快速模态转换。此外,还提出了一个双分支融合模块来对齐特征并删除幽灵伪像。实验结果表明,所提出的方法有效地减轻了一系列极端照明条件的图像高度明亮和黑暗区域的信息丢失,从而产生了逼真的和自然的图像。
图像字幕是一项计算机视觉任务,涉及为图像生成自然语言描述。此方法在各个领域都有许多应用,包括图像检索系统,医学和各种行业。但是,尽管图像字幕进行了重要的研究,但大多数研究都集中在高质量的图像或受控环境上,而没有探索现实世界图像字幕的挑战。现实世界的图像字幕涉及复杂而动态的环境,具有许多关注点,图像通常在质量上非常差,甚至对于人类而言,这也是一项艰巨的任务。本文评估了在不同编码机制,语言解码器和培训程序之上构建的各种模型的性能,使用新创建的现实世界数据集由使用MIT室内场景数据集构建的65多个不同场景类的800多个图像组成。该数据集使用IC3方法字幕,该方法通过汇总来自图像的唯一视图点的标准图像字幕模型所涵盖的详细信息来生成更具描述性字幕。
通过利用量化误差和加性噪声之间的相似性,可以通过使用扩散模型“ denoise”量化引入的伪影来构建基于扩散的图像压缩编解码器。但是,我们确定了这种方法中的三个差距,从而导致量化的数据排除在扩散模型的分布之外:噪声水平,噪声类型和由离散化引起的差距的差距。为了解决这些问题,我们提出了一个新型的基于量化的正向扩散过程,该过程是理论上建立的,并桥接了上述三个差距。这是通过经过精心量身定制的量化时间表以及对均匀噪声训练的扩散模型来实现的。与以前的工作相比,我们提出的架构也会产生一贯的现实和详细的结果,即使是在极低的比特率下,同时保持对原始图像的忠诚度。
超分辨率医学图像可帮助医生提供更准确的诊断。在许多情况下,计算机断层扫描 (CT) 或磁共振成像 (MRI) 技术在一次检查期间会捕获多个扫描 (模式),这些扫描 (模式) 可以联合使用 (以多模态方式) 来进一步提高超分辨率结果的质量。为此,我们提出了一种新颖的多模态多头卷积注意模块来超分辨率 CT 和 MRI 扫描。我们的注意模块使用卷积运算对多个连接的输入张量执行联合空间通道注意,其中核 (感受野) 大小控制空间注意的减少率,卷积滤波器的数量控制通道注意的减少率。我们引入了多个注意头,每个头具有不同的感受野大小,对应于空间注意的特定减少率。我们将多模态多头卷积注意力 (MMHCA) 集成到两个深度神经架构中以实现超分辨率,并对三个数据集进行了实验。我们的实证结果表明,我们的注意力模块优于超分辨率中使用的最先进的注意力机制。此外,我们进行了一项消融研究,以评估注意力模块中涉及的组件的影响,例如输入的数量或头部的数量。我们的代码可在 https://github.com/lilygeorgescu/MHCA 免费获取。