基于变压器的模型已在包括图像超级分辨率(SR)在内的低级视觉任务中取得了显着的结果。但是,在获得全球信息时,基于不重叠的窗口中依赖自我注意的早期aperach遇到了挑战。为了激活全球更多输入像素,已经提出了混合注意模型。此外,通过仅将像素的RGB损失(例如L 1)降至最低而无法捕获基本的高频降低,训练不足。本文提出了两种贡献:i)我们引入了卷积非本地稀疏注意(NLSA)块,以扩展混合变压器体系结构,以增强其接受场。ii)我们采用小波损失来训练变压器模型,以提高定量和主观性能。虽然先前已经探索过小波损耗,但在基于训练变压器的SR模型中显示了它们的力量是新颖的。我们的实验结果表明,所提出的模型在各种基准数据集中提供了状态的PSNR结果以及出色的视觉性能。
量子图像处理 (QIP) 是一个旨在利用量子计算的优势来处理和分析图像的领域。然而,QIP 面临两个挑战:量子比特的限制和量子机器中噪声的存在。在本研究中,我们提出了一种新方法来解决 QIP 中的噪声问题。通过训练和使用机器学习模型来识别和校正量子处理图像中的噪声,我们可以补偿机器引起的噪声并以更高的效率检索类似于传统计算机执行的处理结果。该模型通过学习由现有处理图像和来自开放获取数据集的量子处理图像组成的数据集进行训练。该模型将能够为我们提供每个像素的置信度及其潜在的原始值。为了评估模型在补偿 QIP 中的损失和退相干方面的准确性,我们使用三个指标对其进行评估:峰值信噪比 (PSNR)、结构相似性指数 (SSIM) 和平均意见分数 (MOS)。此外,我们还讨论了我们的模型在各个领域的适用性以及与其他方法相比的成本效益。
摘要 - 如今,信息和通信技术的进步以及智能手机等电子设备的易于访问,已经实现了敏捷,高效的存储,版本以及数字多媒体文件的分布。但是,缺乏法规导致了与知识产权认证和版权保护相关的几个问题。此外,在非法打印剥削的情况下,问题变得复杂,涉及打印和扫描过程。为解决这些问题,已经提出了几种与加密算法结合使用的数字水印。在本文中,定义了一种强大的水印策略,该策略由墨西哥文化遗产的数字化摄影图像的管理和检测组成。所提出的策略基于两种类型的数字水印的组合,这是一种基于空间域的可见型膜类型,而另一种基于频域的不可见类型,以及粒子群的优化。实验结果表明,在打印扫描过程或数字动物攻击以及常见的图像几何和图像处理攻击(例如JPEG压缩)中所面临的算法的高性能。此外,通过PSNR评估水印的不可识别性,并将其与其他先前提出的算法进行比较。关键字 - 数字水印,图像处理,信息安全,身份验证,版权保护,文化遗产
摘要 - 操纵看不见的对象在没有3D表示的情况下具有挑战性,因为对象通常具有遮挡的表面。这需要与对象的物理互动以构建其内部表示形式。本文提出了一种方法,该方法使机器人能够快速学习给定对象的完整3D模型,以在不熟悉的方向上进行操作。我们使用部分构造的NERF模型的集合来量化模型不确定性,以通过优化信息性和可行性来确定下一个动作(视觉或重新定位动作)。此外,我们的方法决定了何时以及如何掌握和重新定位对象的部分NERF模型,并重新估计对象姿势以纠正交互期间引入的未对准。在带有基准对象的桌面环境中运行的模拟Franka Emika机器人操作器进行的实验表明,视觉重建质量(PSNR)的14%,(ii)20%的几何/深度/深度重建对象表面(f-得分)和(iii)71%在(iii)71%的成功对象率是一定的,该任务范围是A的任务范围,即一定的一定范围。场景中的配置;超过当前方法。其他详细信息显示在以下网址:https://actnerf.github.io/。
摘要:本文收集了两种类型的医学图像,它们来自 CT 扫描和超声系统,目的是在保持图像质量的情况下减少表示医学图像所需的位数。医学成像对疾病诊断和手术准备有很大影响。另一方面,由于医学图像数据量巨大,存储和传输是一个重要问题。例如,每张 CT 图像切片为 512 x 512,数据集由 200 到 400 张图像组成,平均数据量为 150 MB。对医学数据进行有效压缩可以解决存储和传输问题。医学图像使用提出的算法进行压缩,该算法包括两种技术,即离散余弦变换 DCT 和矢量量化 VQ。本文从收集医学图像开始,使用 MATLAB 通过 DCT-QV 开发压缩算法,并通过使用峰值信噪比 PSNR、均方误差 MSE、压缩比 CR 和每像素比特 BPP 测量原始图像和压缩图像之间的差异来评估这些技术的性能。实验结果表明,所提算法压缩后的图像质量较高,量化水平达到30%以上,压缩率达到可接受水平。
抽象图像着色是计算机视觉中的一个众所周知的问题。但是,由于任务的不良性质,图像着色本质上是具有挑战性的。尽管研究人员已经尝试了几次尝试使着色管道自动化,但由于缺乏调理,这些过程通常会产生不切实际的结果。在这项工作中,我们试图将文本描述与要着色的灰度图像一起集成为辅助条件,以提高着色过程的保真度。据我们所知,这是将文本条件纳入着色管道中的首次尝试之一。为此,已经提出了一个新颖的深网,该网络采用了两个输入(灰度图像和各自的编码文本描述),并尝试预测相关的颜色范围。由于各自的文本描述包含场景中存在的对象的颜色信息,因此文本编码有助于提高预测颜色的整体质量。已使用SSIM,PSNR,LPISP(分别达到0.917,23.27,0.223)评估了所提出的模型。这些定量指标表明,在大多数情况下,提出的方法优于SOTA技术。
图像介绍是一种有前途但具有挑战性的方法,它填充了图像中巨大的自由形式空白区域。最近的大多数论文都集中于将蒙面的图像分成2个有效和无效元素的矩阵,从而使系统更加复杂。本文提出了一种名为Reconv的新型算法,该算法使用重复的标准卷积操作,该操作以相同的方式处理图像的有效元素和无效元素。我们建议的方法的结果重新配置,表明,与较早的方法相比,我们的系统产生的输出更适合于现实世界应用。在药物和酒精成瘾治疗和研究的背景下,该技术提供了几种独特而新兴的应用,例如治疗性视觉刺激修饰。介绍技术可以填补与成瘾相关图像中缺少的数据,例如损坏的MRI扫描或不完整的调查响应,从而增强了成瘾研究中使用的机器学习模型的预测能力。对两种数据集类型的广泛比较研究验证了我们的方法。使用PSNR,SSIM和FID等不同措施评估了建议策略的有效性。结果表明,与现有的现代方法相比,我们建议的方法在性能方面表现出色。
摘要:当前的停车援助和监测系统合成鸟类视图(BEV)图像,以提高驱动程序的可见度。这些BEV图像是使用称为“逆透视图”(IPM)的流行透视转换创建的,该转换将其投射到FishEye摄像头捕获的环绕视图图像的像素上。然而,IPM在准确地表示高度和接缝的对象方面面临挑战,因为它依赖于刚性几何变换,因此将预计的环绕视图缝合在一起。为了解决这些局限性,我们提出了Bevgan,这是一种新型的几何形状引导的条件生成副本网络(CGAN)模型,将多尺度鉴别器与基于变形金刚的生成器相结合,该生成器利用Fisheye摄像机校准和注意力机械机制,以隐含地模拟该视图之间的几个几何形式的变换。实验结果表明,在图像保真度和质量方面,Bevgan的表现优于IPM和最先进的跨视图生成方法。与IPM相比,我们报告了 + 6的改进。在PSNR上的2 dB,MS-SSIM上的 + 170%在描绘停车场和驾驶场景的合成数据集上进行评估。此外,还通过零射推理证明了Bevgan在现实世界中的图像上的概括能力。
摘要:背景:由于医学图片的密度,医学图像分割比普通图像分割更复杂且要求更高。脑肿瘤是导致高死亡率的最常见原因。目的:由于肿瘤细胞和非肿瘤细胞之间的差异,肿瘤细胞的提取特别困难。在普通的卷积神经网络中,局部背景信息受到限制。因此,以前的医学成像深度学习算法一直难以检测不同细胞中的异常。方法:为了解决这一挑战,提出了一种用于从脑磁共振成像 (MRI) 图像中分割肿瘤的深度卷积生成对抗网络。生成器和鉴别器是构成所提模型的两个网络。该网络专注于肿瘤定位、噪声相关问题和社会阶层差异。结果:骰子得分系数 (DSC)、峰值信噪比 (PSNR) 和结构指数相似度 (SSIM) 分别为 0.894、62.084 dB 和 0.88912。该模型的准确率提高到 97%,损失降低到 0.012。结论:实验表明,该方法可以成功分割肿瘤和良性组织。因此,创建了一种新颖的脑肿瘤分割方法。
医疗图像处理已成为诊断过程的关键要素之一,因为最近医疗成像的使用增加,而临床医生在诊断患者中对这种计算机处理的医学图像的依赖。由于传统的Canny Edge检测算法对噪声很敏感,因此在滤除噪声时会很容易丢失弱边缘信息,并且其固定参数的适应性差。建议的算法引入了图像块强度操作员的概念,以替换图像梯度。此外,建议的算法的计算速度相对较快,因为它可以通过块而不是像素来构图,而不是像素。提出了两种自适应阈值选择方法,一种基于图像梯度幅度的中值累积直方图,另一个基于两种类型的图像像素的标准偏差(一个具有较小的边缘信息,另一个带有丰富的边缘信息)。所提出的算法可以分为四个阶段:输入医学数字图像,将颜色的医学图像转换为灰度,应用改进的Canny Edge检测,然后计算MSE&PSNR测量,此外,肿瘤学家进行了视觉问卷,以找出使医疗图像增强的方法清晰。