自我监督的表示学习(SSL)(Balesteriero等人,2023年)近年来已经成为表示学习的基石。诸如Openai剪辑之类的模型(Radford等人,2021)示例SSL方法如何产生适用于广泛下游任务的表达性表示。此范式依赖于配对的观测值(配对的视图或共享相同内容的方式)来提取有意义的特征。从广义上讲,SSL方法分为两类:歧视性和生成性(或基于重建)。歧视性SSL(Chen等人,2020年)旨在确保比随机采样观测值在潜在空间中更接近配对观测的表示。相反,基于重建的SSL(He等人,2022)涉及从其对中重建一个观察结果。在多视图设置中,数据增强技术(例如图像裁剪和颜色抖动)通常用于人为地创建单个单个观测值。在这些增强中,事实证明,图像裁剪特别有影响力,推动了视觉学习模型(例如Meta's Dino)(Caron等人,2021; Oquab等。,2023)和JEPA(Assran等人,2023)。最近的研究(Bizeul等人,2024)1表明,在图像域中,掩盖(概念上类似于裁剪),而不是单个图像像素可以生成图像对,从而促进基于重建的SSL中表达特征的学习。,2023)。在这个项目中,我们的目标是投资于将类似方法应用于歧视性SSL是否可以产生可比的好处,专门针对Dino,Jepa和Siglip(Zhai等人。