详细内容或原文请订阅后点击阅览
重新思考 JEPA:与 Frozen Teachers 一起实现计算高效的视频 SSL
视频联合嵌入预测架构 (V-JEPA) 通过使用指数移动平均 (EMA) 更新的教师预测潜在空间中的屏蔽区域来学习可推广的现成视频表示。虽然 EMA 可以防止表示崩溃,但它使可扩展模型选择变得复杂,并将教师和学生架构耦合起来。我们重新审视隐藏的潜在预测,并表明冻结的教师就足够了。具体来说,我们 (i) 在 V-JEPA 掩蔽下使用简单的像素重建目标训练目标编码器,然后 (ii) 冻结它并训练学生预测老师的……
来源:Apple机器学习研究视频联合嵌入预测架构 (V-JEPA) 通过使用指数移动平均 (EMA) 更新的教师预测潜在空间中的屏蔽区域来学习可推广的现成视频表示。虽然 EMA 可以防止表示崩溃,但它使可扩展模型选择变得复杂,并将教师和学生架构耦合起来。我们重新审视隐藏的潜在预测,并表明冻结的教师就足够了。具体来说,我们 (i) 在 V-JEPA 掩蔽下用简单的像素重建目标训练目标编码器,然后 (ii) 冻结它并训练学生预测教师在掩蔽区域上的潜伏。这导致了一个两阶段的、非正则化的方案,我们称之为 SALT(静态教师非对称潜在训练)。 SALT 将优化解耦为像素重建(教师)和屏蔽潜在预测(学生),提高透明度、效率和可扩展性,同时保留表示在冻结评估下泛化的能力。根据经验,我们的学生模型在不同基准的冻结主干评估下优于最近提出的 V-JEPA 2 编码器。它们的计算也更加优化:在匹配的预训练 FLOP 下,我们的方法实现了更高的探测精度,并且其缩放曲线主导了 V-JEPA 的精度 FLOP 帕累托前沿。最后,我们发现学生的质量与教师的质量非常相关:即使教师规模较小、次优,也会出现表现优异的学生。这表明计算预算分配应该绝大多数有利于学生。这些结果使 SALT 成为视频表示学习中基于 EMA 的自蒸馏的简单、可扩展且计算高效的替代方案。
- † 在 Apple 期间完成的工作