迪士尼研究提供改进的基于 AI 的图像压缩 – 但可能会产生幻觉细节

迪士尼的研究部门正在提供一种新的图像压缩方法,利用开源稳定扩散 V1.2 模型以比竞争方法更低的比特率生成更逼真的图像。新方法(尽管与 JPEG 和 AV1 等传统编解码器相比,其复杂性有所增加,但仍被定义为“编解码器”)可以在任何 […] 上操作。文章迪士尼研究提供改进的基于 AI 的图像压缩——但它可能会产生幻觉细节首先出现在 Unite.AI 上。

来源:Unite.AI

迪斯尼的研究部门提供了一种压缩图像的新方法,利用开源稳定扩散V1.2模型比竞争方法在较低的比特率上产生更逼真的图像。

与先前的方法相比,迪士尼压缩方法。作者声称改善了细节的恢复,同时提供了不需要数十万美元培训的模型,并且比最近的等效竞争方法更快。资料来源:https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-compression-with-found-diffusion-diffusion-models-models-paper.pdf

与先前的方法相比,迪士尼压缩方法。作者声称改善了细节的恢复,同时提供了不需要数十万美元培训的模型,并且比最近的等效竞争方法更快。

新方法(尽管与传统的编解码器(如JPEG和AV1)相比,该方法的复杂性增加了,但它定义为“编解码器”)可以在任何潜在扩散模型(LDM)上运行。在定量测试中,它在准确性和细节方面优于以前的方法,并且需要较小的培训和计算成本。

JPEG av1 潜在扩散模型

新工作的关键见解是量化误差(所有图像压缩中的中心过程)类似于噪声(扩散模型中的中心过程)。

量化错误 量化 中央进程 噪声

因此,“传统上”量化的图像可以视为原始图像的嘈杂版本,并用于LDM的DeNoising过程而不是随机噪声中,以便在目标比特率上重建图像。

与竞争对手的方法相比,新的迪斯尼方法的进一步比较(以绿色为突出显示)。

作者认为:

‘我们提出的编解码器在定量现实主义指标中的表现优于以前的方法,并且我们验证我们的重建是最终用户在质量上首选的,即使其他方法使用了两倍的比特率。”

幻觉 elo