论文主题的提案2025 -MESR/AAP资金编码机器和人类的NA编码,用于视觉数据摘要和上下文,随着视觉数据的爆炸,图像压缩和视频方法的爆炸爆炸,必须适应各种需求:最大化压缩,同时最大程度地减少了人类认为质量的损失,并保证了压缩的损失,并保证了压缩的损失。到目前为止,研究已经探索了两个不同的轴:根据视觉感知和对机器的压缩,针对人造视觉任务进行了优化。但是,这两个范式通常是单独开发的,并且基于矛盾的目标。一些作品试图开发结合这两个方面的混合方法。深度学习和感知建模的最新进展为混合压缩开辟了道路,能够动态适应机器和人类的特定需求。艺术状态和当前限制了图像和视频的压缩方法历史上分为两个主要类别:针对人类感知的优化和专门针对人工视觉算法的类别。在第一种情况下,例如,JPEG或H.26X(例如H.26X)的常规编解码器基于旨在最大化视觉保真度的机制,同时最大程度地减少了存储或传输数据的数量。但是,这些方法仍然昂贵,并且不适合板系统的能量限制。可以通过从认知心理学(例如不同的差异(JND)或满足比率(Over)[6]中利用原理来优化这些方法,以消除人类视觉系统认为非必需的信息[5]。但是,这些编解码器未考虑人工智能模型(AI)的需求,该模型可以引入不必要的人工制品,以破坏对图像和视频的自动分析。并行,由于计算机视觉算法和用于图像的人工智能的繁荣时期,机器的压缩最近作为一个关键的研究领域出现。MPEG [1] [3]最近推广的机器视频编码(VCM)等标准,旨在直接优化视频,以用于自动分析任务,例如对象的分类,分割和检测。此外,使用变异自动 - 输入器(VAE),对手(GAN)和Visual Transformers [7]使得产生紧凑的潜在表示是有可能的,同时保持这些任务的高性能[9]。但是,这些方法缺乏解释性,因为它们产生的表示,这些表示不一定是人类可读的,并且不允许对原始形象进行忠实的重建。面对这些限制,一个新的研究部门是通过开发能够动态适应机器和人类需求的混合压缩模型来统一这两种方法。最近的方法,例如transtic [4],试图将优化的编解码器转移到人工视觉任务的情况下,而无需恢复。此外,基于扩散模型和gans的生成压缩模型[2]通过允许根据用户的类型对图像进行优化重建,从而提供了有趣的观点。另一个有希望的进步是基于神经形态计算机的整合
