JEPA领域信息情报检索---XiaoMi-AI

2026年5月7日 00:00

用于学习语义丰富的视觉表示的文本条件 JEPA

Text-Conditional JEPA for Learning Semantically Rich Visual Representations

基于图像的联合嵌入预测架构 (I-JEPA) 提供了一种通过屏蔽特征预测进行视觉自监督学习的有前途的方法。然而，由于屏蔽位置固有的视觉不确定性，特征预测仍然具有挑战性，并且可能无法学习语义表示。在这项工作中，我们提出了文本条件 JEPA（TC-JEPA），它使用图像标题来减少预测的不确定性。具体来说，我们使用细粒度文本调节器来调整预测的补丁特征，该调节器计算输入文本标记上的稀疏交叉注意力。有了这样的……

JEPA关键词检索结果

用于学习语义丰富的视觉表示的文本条件 JEPA