摘要。端到端图像压缩的最新进展可能会超过传统的编解码器,以超越率延伸性能。但是,当前的方法要么优先考虑人类概念质量,要么仅针对一个或几个预定的下游任务优化,从而忽略了涉及各种不可预见的机器视觉任务的更常见的情况。在本文中,我们提出了一个基于扩散的多任务统一图像压缩框架,旨在通过在开放设定的场景中纳入Hu-Man感知和多个视觉任务来扩展传统图像压缩的边界。我们提出的方法包括多任务协作嵌入模块和基于扩散的不变知识学习模块。以前的模块有助于完成多个任务的协作嵌入,而后一个模块通过将不变知识从可见的视觉任务中提炼出来,从而提高了对不可预见的任务的概括。实验表明,所提出的方法提取了用于Human和Machine Vision协作压缩的紧凑和多功能嵌入,从而带来了出色的性能。Specifically, our method outperforms the state-of-the-art by 52.25%/51.68%/48.87%/48.07%/6.29% BD-rate reduction in terms of mAP/mAP/aAcc/PQ-all/accuracy on the MS-COCO for object de- tection/instance segmentation/semantic segmentation/panoptic segmen- tation and video question answering tasks, 分别。
摘要。机器和人类视力(ICMH)的图像压缩近年来引起了人们的关注。现有的ICMH方法受到高训练和存储开销的限制,这是由于特定于任务的网络设计的大量设计。为了解决此问题,在本文中,我们为ICMH(名为Adapt-ICMH)开发了一种新颖的基于轻量级适配器的调整框架,可以更好地平衡任务性能和比特率与减少的开销。We propose a spatial-frequency modulation adapter (SFMA) that simultaneously eliminates non-semantic redundancy with a spatial modulation adapter, and enhances task-relevant frequency com- ponents and suppresses task-irrelevant frequency components with a fre- quency modulation adapter.所提出的适配器是插件播放的,并且与几乎所有现有的学到的图像压缩模型兼容,而不会损害预训练模型的性能。实验表明,适应性ICMH始终在各种机器视觉任务上的现有ICMH框架较少,并且较少的微调参数和降低的计算复杂性。代码将在https://github.com/qingshi9974/eccv2024-adpaticmh上发布。
摘要。将扩散模型纳入图像压缩功能 - 主体具有产生现实和详细的重建的潜力,尤其是在极低的比特率下。以前的方法着重于使用扩散模型作为表达解码器在条件信号中的量化错误。但是,以这种方式实现竞争成果需要对扩散模型的昂贵训练和由于迭代生成过程而导致的长时间推理时间。在这项工作中,我们使用扩散来恢复潜在的传输图像中的丢失信息,以删除量化误差作为降级任务。我们的方法使我们能够执行少于整个扩散生成过程的10%,并且不需要对扩散模型进行体系结构的更改,从而可以将基础模型用作强大的先验,而无需对骨架进行其他微调。我们提出的编解码器在定量现实主义指标中的表现优于以前的方法,并且我们验证我们的重建是最终用户质量上首选的,即使其他方法使用了两倍的比特率。
摘要:在自主驾驶技术不断发展的景观中,光检测和范围(LIDAR)传感器已成为增强环境感知的关键仪器。他们可以在车辆周围提供精确的,高分辨率的实时3D表示,以及在弱光条件下进行远程测量的能力。但是,这些优势是以传感器生成的大量数据为代价的,导致了传输,处理和存储操作的几个挑战,目前可以通过对点云中使用数据压缩技术来减轻这些挑战。本文介绍了用于压缩汽车LIDAR传感器的点云数据的现有方法的调查。它提出了一种全面的分类法,将这些方法分为四个主要群体,并在几个重要指标中进行比较和讨论。
此外,储能对于风能等可再生能源的使用和实施至关重要。等温 CAES 具有绿色、高效、弹性和可扩展的储能潜力,与当前的储能方法相比具有多项优势,例如无需使用需要有限稀土元素的电池。虽然 I-CAES 的最新技术水平在 10 年内几乎没有变化,但这项发明将推动该技术的发展,并在爆炸式增长的市场中占据优势。
摘要 — 越来越多的人认为,新兴的元宇宙世界依赖于高效的视觉数据压缩技术来实现有效的数据存储、超低延迟交互和无处不在的通信。本文全面介绍了视觉数据压缩技术和标准的最新进展,这些技术和标准在构建元宇宙中可以发挥重要作用。特别是,我们将回顾视觉数据压缩方法和标准,并提出我们对交互式编码如何更有效地支持元宇宙的愿景。最后,我们讨论了元宇宙数据压缩的独特要求和基本挑战,并展望了未来的技术趋势。索引词 — 元宇宙、视觉数据压缩、交互式通信
摘要:近年来端到端学习的图像压缩编解码器显着出现。这些编解码器表现出比常规方法的优越性,在支持新的失真损失的同时,展示了各种数据域之间的显着灵活性和适应性。尽管诸如计算复杂性之类的挑战,但由于其非常合适的内部表示,学习的图像压缩方法与基于学习的数据处理和分析管道固有地保持一致。机器视频编码的概念引起了学术研究人员和行业从业人员的极大关注。这个概念反映了将数据压缩与计算机视觉应用程序集成的日益增长的需求。根据这些发展,我们提出了一项全面的调查和综述,对有损图像压缩方法。此外,我们还提供了两个著名国际标准的简明概述,即机器和JPEG AI的MPEG视频编码。这些标准旨在弥合数据压缩和计算机视觉之间的差距,以适应实际行业用例。
摘要:本文收集了两种类型的医学图像,它们来自 CT 扫描和超声系统,目的是在保持图像质量的情况下减少表示医学图像所需的位数。医学成像对疾病诊断和手术准备有很大影响。另一方面,由于医学图像数据量巨大,存储和传输是一个重要问题。例如,每张 CT 图像切片为 512 x 512,数据集由 200 到 400 张图像组成,平均数据量为 150 MB。对医学数据进行有效压缩可以解决存储和传输问题。医学图像使用提出的算法进行压缩,该算法包括两种技术,即离散余弦变换 DCT 和矢量量化 VQ。本文从收集医学图像开始,使用 MATLAB 通过 DCT-QV 开发压缩算法,并通过使用峰值信噪比 PSNR、均方误差 MSE、压缩比 CR 和每像素比特 BPP 测量原始图像和压缩图像之间的差异来评估这些技术的性能。实验结果表明,所提算法压缩后的图像质量较高,量化水平达到30%以上,压缩率达到可接受水平。
已经提出了云无线电访问网络(CRAN)体系结构,以解决通过大规模LORA网络的通过和可伸缩性挑战解决网络的一种方式。crans可以通过相干地汇总信号来改善网络吞吐量,并通过在云中实现接收器来扩展到多个通道。但是,在远程洛拉(Lora Deployments)中,克兰(Cran)对高架带宽的需求可能具有挑战性。因此,需要带宽感知的洛拉样品来收获crans的好处。我们介绍了云洛拉(Lora),这是洛拉(Lora)的第一个实用的cran,它可以检测到亚噪声洛拉信号并形成带宽自动压缩。据我们所知,这是Cran实时运作的Cran的首次演示。 我们将Cloud-lora在农业领域中部署了数天,将USRP作为门户。 然后使用蜂窝回程热点将Compers样品流式传输到Microsoft Azure服务器。 我们使用联合多门解码器和使用最新的接收器的联合多门解码和2倍吞吐量改进来证明超过6 dB的SNR收益,这是Cran在现实世界部署中实现的。据我们所知,这是Cran实时运作的Cran的首次演示。我们将Cloud-lora在农业领域中部署了数天,将USRP作为门户。然后使用蜂窝回程热点将Compers样品流式传输到Microsoft Azure服务器。我们使用联合多门解码器和使用最新的接收器的联合多门解码和2倍吞吐量改进来证明超过6 dB的SNR收益,这是Cran在现实世界部署中实现的。