屏蔽区关键词检索结果

重新思考 JEPA:与 Frozen Teachers 一起实现计算高效的视频 SSL

Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers

视频联合嵌入预测架构 (V-JEPA) 通过使用指数移动平均 (EMA) 更新的教师预测潜在空间中的屏蔽区域来学习可推广的现成视频表示。虽然 EMA 可以防止表示崩溃,但它使可扩展模型选择变得复杂,并将教师和学生架构耦合起来。我们重新审视隐藏的潜在预测,并表明冻结的教师就足够了。具体来说,我们 (i) 在 V-JEPA 掩蔽下使用简单的像素重建目标训练目标编码器,然后 (ii) 冻结它并训练学生预测老师的……