用于学习语义丰富的视觉表示的文本条件 JEPA XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

用于学习语义丰富的视觉表示的文本条件 JEPA

2026年5月7日 00:00 33 Comments

来源:Apple机器学习研究

基于图像的联合嵌入预测架构 (I-JEPA) 提供了一种通过屏蔽特征预测进行视觉自监督学习的有前途的方法。然而，由于屏蔽位置固有的视觉不确定性，特征预测仍然具有挑战性，并且可能无法学习语义表示。在这项工作中，我们提出了文本条件 JEPA（TC-JEPA），它使用图像标题来减少预测的不确定性。具体来说，我们使用细粒度文本调节器来调整预测的补丁特征，该调节器计算输入文本标记上的稀疏交叉注意力。通过这种调节，补丁特征作为文本的函数变得可预测，因此在语义上更有意义。我们证明 TC-JEPA 可以提高下游性能和训练稳定性，并具有良好的扩展特性。 TC-JEPA 还提供了一种仅基于特征预测的新视觉语言预训练范例，在各种任务上优于对比方法，尤其是那些需要细粒度视觉理解和推理的任务。

补丁工作中良好的不确定性具有任务预测屏蔽视觉细粒度调节器注意力提高固有的稳定性文本输入学习的 JEPA 有前途的训练 TC 特征

用于学习语义丰富的视觉表示的文本条件 JEPA

其他外部链接

Tags

XiaoMi-AI