通过利用量化误差和加性噪声之间的相似性,可以通过使用扩散模型“ denoise”量化引入的伪影来构建基于扩散的图像压缩编解码器。但是,我们确定了这种方法中的三个差距,从而导致量化的数据排除在扩散模型的分布之外:噪声水平,噪声类型和由离散化引起的差距的差距。为了解决这些问题,我们提出了一个新型的基于量化的正向扩散过程,该过程是理论上建立的,并桥接了上述三个差距。这是通过经过精心量身定制的量化时间表以及对均匀噪声训练的扩散模型来实现的。与以前的工作相比,我们提出的架构也会产生一贯的现实和详细的结果,即使是在极低的比特率下,同时保持对原始图像的忠诚度。
Vision Transformer(VIT)在计算机视觉领域取得了重大步骤。然而,随着模型的深度和输入图像的重新分配增加,与培训和运行的VIT模型相关的计算成本急剧上升。本文提出了一个基于CNN和Vision Trans-trans-trans的混合模型,称为CI2P-VIT。该模型包含一个称为CI2P的模块,该模块利用Compressai编码来压缩图像,然后通过一系列连接生成一系列贴片。CI2P可以替换VIT模型中的贴片嵌入组件,从而无缝集成到现有的VIT模型中。与VIT-B/16相比,CI2P-VIT具有减少到原始四分之一的自我发项层的斑块输入数量。此设计不仅显着降低了VIT模型的计算成本,而且还通过引入CNN的电感偏置特性有效地提高了模型的准确性。VIT模型的精度显着提高。在Animal-10数据集的地面上接受训练时,CI2P-VIT的准确率为92.37%,比VIT-B/16基线提高了3.3%。此外,该模型的计算操作以每秒浮点操作(FLOPS)测量,减少了63.35%,并且在相同的硬件配置上的训练速度增加了2倍。
下一步涉及神经网络模型开发。自动编码器和卷积神经网络(CNN)都是深度学习体系结构,但具有不同的目的,并且是为不同类型的任务而设计的。我们使用了自动编码器和CNN。设计了一个基于自动编码器的体系结构,包括编码器和解码器。编码器通过提取基本特征将输入图像压缩为紧凑的潜在表示,而解码器从压缩图像中重新构造了输入图像。CNN体系结构由多个卷积层组成,然后是合并,完全连接的层,有时是标准化层。cnn是一种监督的学习模型,专为涉及数据中的空间层次结构(例如图像)而设计。提取空间和分层特征(边缘,纹理等)用于分类,细分和对象检测等任务。
摘要。端到端图像压缩的最新进展可能会超过传统的编解码器,以超越率延伸性能。但是,当前的方法要么优先考虑人类概念质量,要么仅针对一个或几个预定的下游任务优化,从而忽略了涉及各种不可预见的机器视觉任务的更常见的情况。在本文中,我们提出了一个基于扩散的多任务统一图像压缩框架,旨在通过在开放设定的场景中纳入Hu-Man感知和多个视觉任务来扩展传统图像压缩的边界。我们提出的方法包括多任务协作嵌入模块和基于扩散的不变知识学习模块。以前的模块有助于完成多个任务的协作嵌入,而后一个模块通过将不变知识从可见的视觉任务中提炼出来,从而提高了对不可预见的任务的概括。实验表明,所提出的方法提取了用于Human和Machine Vision协作压缩的紧凑和多功能嵌入,从而带来了出色的性能。Specifically, our method outperforms the state-of-the-art by 52.25%/51.68%/48.87%/48.07%/6.29% BD-rate reduction in terms of mAP/mAP/aAcc/PQ-all/accuracy on the MS-COCO for object de- tection/instance segmentation/semantic segmentation/panoptic segmen- tation and video question answering tasks, 分别。
摘要。机器和人类视力(ICMH)的图像压缩近年来引起了人们的关注。现有的ICMH方法受到高训练和存储开销的限制,这是由于特定于任务的网络设计的大量设计。为了解决此问题,在本文中,我们为ICMH(名为Adapt-ICMH)开发了一种新颖的基于轻量级适配器的调整框架,可以更好地平衡任务性能和比特率与减少的开销。We propose a spatial-frequency modulation adapter (SFMA) that simultaneously eliminates non-semantic redundancy with a spatial modulation adapter, and enhances task-relevant frequency com- ponents and suppresses task-irrelevant frequency components with a fre- quency modulation adapter.所提出的适配器是插件播放的,并且与几乎所有现有的学到的图像压缩模型兼容,而不会损害预训练模型的性能。实验表明,适应性ICMH始终在各种机器视觉任务上的现有ICMH框架较少,并且较少的微调参数和降低的计算复杂性。代码将在https://github.com/qingshi9974/eccv2024-adpaticmh上发布。
摘要。将扩散模型纳入图像压缩功能 - 主体具有产生现实和详细的重建的潜力,尤其是在极低的比特率下。以前的方法着重于使用扩散模型作为表达解码器在条件信号中的量化错误。但是,以这种方式实现竞争成果需要对扩散模型的昂贵训练和由于迭代生成过程而导致的长时间推理时间。在这项工作中,我们使用扩散来恢复潜在的传输图像中的丢失信息,以删除量化误差作为降级任务。我们的方法使我们能够执行少于整个扩散生成过程的10%,并且不需要对扩散模型进行体系结构的更改,从而可以将基础模型用作强大的先验,而无需对骨架进行其他微调。我们提出的编解码器在定量现实主义指标中的表现优于以前的方法,并且我们验证我们的重建是最终用户质量上首选的,即使其他方法使用了两倍的比特率。
摘要:近年来端到端学习的图像压缩编解码器显着出现。这些编解码器表现出比常规方法的优越性,在支持新的失真损失的同时,展示了各种数据域之间的显着灵活性和适应性。尽管诸如计算复杂性之类的挑战,但由于其非常合适的内部表示,学习的图像压缩方法与基于学习的数据处理和分析管道固有地保持一致。机器视频编码的概念引起了学术研究人员和行业从业人员的极大关注。这个概念反映了将数据压缩与计算机视觉应用程序集成的日益增长的需求。根据这些发展,我们提出了一项全面的调查和综述,对有损图像压缩方法。此外,我们还提供了两个著名国际标准的简明概述,即机器和JPEG AI的MPEG视频编码。这些标准旨在弥合数据压缩和计算机视觉之间的差距,以适应实际行业用例。
摘要:本文收集了两种类型的医学图像,它们来自 CT 扫描和超声系统,目的是在保持图像质量的情况下减少表示医学图像所需的位数。医学成像对疾病诊断和手术准备有很大影响。另一方面,由于医学图像数据量巨大,存储和传输是一个重要问题。例如,每张 CT 图像切片为 512 x 512,数据集由 200 到 400 张图像组成,平均数据量为 150 MB。对医学数据进行有效压缩可以解决存储和传输问题。医学图像使用提出的算法进行压缩,该算法包括两种技术,即离散余弦变换 DCT 和矢量量化 VQ。本文从收集医学图像开始,使用 MATLAB 通过 DCT-QV 开发压缩算法,并通过使用峰值信噪比 PSNR、均方误差 MSE、压缩比 CR 和每像素比特 BPP 测量原始图像和压缩图像之间的差异来评估这些技术的性能。实验结果表明,所提算法压缩后的图像质量较高,量化水平达到30%以上,压缩率达到可接受水平。
Refka Ghodhbani 沙特阿拉伯北部边境大学计算机科学系、计算机与信息技术学院 | 突尼斯莫纳斯提尔大学科学学院电子与微电子实验室 refka.ghodhbani@nbu.edu.sa(通讯作者) Taoufik Saidani 沙特阿拉伯北部边境大学计算机科学系、计算机与信息技术学院 taoufik.saidan@nbu.edu.sa Layla Horrigue 突尼斯莫纳斯提尔大学科学学院电子与微电子实验室 layla.k-12@hotmail.com Asaad M. Algarni 沙特阿拉伯北部边境大学计算机科学系、计算机与信息技术学院 asaad.algarni@nbu.edu.sa Muteb Alshammari 沙特阿拉伯北部边境大学计算机与信息技术学院信息技术系 muteb.alshammari@nbu.edu.sa
