基于深度学习(DL)的一般图像表示学习(IRL)对于卫星图像引起了极大的兴趣,因为它的能力:i)通过自我监督的学习来模拟大量的大量免费可用遥感(RS)数据,从而大大降低了标记数据的要求; ii)将各种RS问题概括为下游任务。基于学习的方法最初为在RS图像上使用自我监督的IRL铺平了道路(例如[1],[2])。这种方法通过最大化同一图像的两种观点之间的一致性来对卫星图像表示与卷积神经网络(CNN)进行对比度学习,这是通过数据增强策略生成的。关于RS IRL的最新研究集中在卫星图像的掩盖数据建模上,例如[3] - [10]。他们通过遮罩的自动编码器(MAE)促进了自我监督的学习,并具有视觉变压器(VITS)。通过重建卫星图像,用遮盖的零件执行有效的IRL,即他们学习了描述图像的视觉内容的功能,这些功能可用作调整下游任务的专用模型的起点。最近对MAE对卫星图像IRL的兴趣取决于两个主要原因。首先,与对比的自我监督学习相反,MAE能够学习图像表示,而无需应用任何数据增强策略。这对于卫星图像特别重要,因为大多数数据增强策略都是为自然图像而设计的,并且它们直接适应卫星可能总是可行的。)。第二,已经表明,与VIT相结合的MAE可以根据训练数据的数量成比例地将其缩放到较大的DL模型中[11],[12]。但是,当使用MAE时,所得图像表示往往为较低的语义水平[13]。这防止了他们的全部潜力,用于需要更高级别卫星图像语义的许多下游任务(例如,场景分类,土地地图生成等。
主要关键词