使用空间条件增强 JEPA:稳健且高效的表示学习

这篇论文被 NeurIPS 2024 的自监督学习 - 理论与实践 (SSLTP) 研讨会接受。基于图像的联合嵌入预测架构 (IJEPA) 为使用蒙版图像建模框架进行表示学习提供了一种有吸引力的蒙版自动编码器 (MAE) 替代方案。IJEPA 通过在潜在空间而非输入空间中进行预测来驱动表示以捕获有用的语义信息。然而,IJEPA 依赖于精心设计的上下文和目标窗口来避免表示崩溃。IJEPA 中的编码器模块无法自适应地调节类型……

来源:Apple机器学习研究

这篇论文被 NeurIPS 2024 的自监督学习 - 理论与实践 (SSLTP) 研讨会接受。

基于图像的联合嵌入预测架构 (IJEPA) 为使用蒙版图像建模框架进行表示学习提供了一种有吸引力的蒙版自动编码器 (MAE) 替代方案。IJEPA 通过在潜在空间而非输入空间中进行预测来驱动表示以捕获有用的语义信息。然而,IJEPA 依赖于精心设计的上下文和目标窗口来避免表示崩溃。IJEPA 中的编码器模块无法根据蒙版预测任务的可行性自适应地调节预测和/或目标特征的类型,因为它们没有获得足够的上下文和目标信息。基于在自然图像中信息具有很强的空间偏差的直觉,与远处区域相比,空间局部区域对彼此的预测性很高,我们分别使用上下文和目标窗口的位置来调节 IJEPA 中的目标编码器和上下文编码器模块。我们的“条件”编码器在多个图像分类基准数据集上表现出了性能提升,对上下文窗口大小的鲁棒性得到了提高,并且提高了预训练期间的样本效率。