解释 CLIP:对 ImageNet 分布变化的鲁棒性的见解

稳健模型和非稳健模型的区别是什么?虽然对于 ImageNet 分布变化,已经表明这种稳健性差异可以主要追溯到训练数据的差异,但到目前为止,尚不清楚这在模型学习方面意味着什么。在这项工作中,我们通过探测具有各种主干(ResNets 和 ViTs)和预训练集(OpenAI、LAION-400M、LAION-2B、YFCC15M、CC12M 和 DataComp)的 16 个稳健零样本 CLIP 视觉编码器的表示空间,并将它们与较少的表示空间进行比较来弥合这一差距……

来源:Apple机器学习研究

稳健模型和非稳健模型的区别是什么?虽然对于 ImageNet 分布偏移,已经证明这种稳健性差异可以主要追溯到训练数据的差异,但目前尚不清楚这对模型的学习有什么影响。在这项工作中,我们通过探测具有各种主干(ResNets 和 ViTs)和预训练集(OpenAI、LAION-400M、LAION-2B、YFCC15M、CC12M 和 DataComp)的 16 个稳健零样本 CLIP 视觉编码器的表示空间来弥补这一差距,并将它们与具有相同主干但不同(预)训练集或目标(在 ImageNet-Captions 上进行 CLIP 预训练,在 ImageNet 上进行监督训练或微调)的稳健性较差的模型的表示空间进行比较。通过这种分析,我们产生了三个新颖的见解。首先,我们在稳健的零样本 CLIP 视觉编码器中检测到异常特征的存在,据我们所知,这是首次在非语言和非变压器模型中观察到这些特征。其次,我们发现异常特征的存在是模型中 ImageNet 移位稳健性的一个指标,因为我们在分析中只在稳健模型中发现它们。最后,我们还研究了表示空间中唯一编码概念的数量,并发现零样本 CLIP 模型在其表示空间中编码了更多数量的唯一概念。然而,我们并不认为这是 ImageNet 移位稳健性的指标,并假设它与语言监督有关。由于无需访问移位数据集中的任何数据即可检测到异常特征的存在,因此我们相信它们可以成为从业者在部署期间了解预训练模型的分布移位稳健性的有用工具。