实际学习图像压缩中重要的是什么

学习编解码器相对于硬编码的传统编解码器的主要区别之一是它们能够直接优化以吸引人类视觉系统。尽管有这种潜力,但一种可感知且实用的图像编解码器尚未被提出。在这项工作中,我们的目标是缩小这一差距。我们对控制实际学习图像编解码器设计的关键建模选择进行了全面的研究,并针对感知质量和运行时间进行了联合优化 - 包括在消融中的几种新技术。然后我们执行性能感知神经......

来源:Apple机器学习研究

学习编解码器相对于硬编码的传统编解码器的主要区别之一是它们能够直接优化以吸引人类视觉系统。尽管有这种潜力,但一种可感知且实用的图像编解码器尚未被提出。在这项工作中,我们的目标是缩小这一差距。我们对控制实际学习图像编解码器设计的关键建模选择进行了全面的研究,并针对感知质量和运行时间进行了联合优化 - 包括在消融中的几种新技术。然后,我们对数百万个主干配置执行性能感知神经架构搜索,以识别实现目标设备运行时间的模型,同时最大化感知指标捕获的压缩性能。我们结合各种优化来构建新的编解码器,从而显着改善速度和感知质量之间的权衡。基于严格的主观用户研究,与 AV1、AV2、VVC、ECM 和 JPEG-AI 相比,它的比特率节省了 2.3–3 倍,与最先进的编解码器替代方案相比,比特率节省了 20–40%。与此同时,在 iPhone 17 Pro Max 上,它对 12MP 图像的编码速度可达 230 毫秒,解码速度为 150 毫秒——比在 V100 GPU 上运行的大多数基于 ML 的顶级编解码器还要快。