遥感场景(RSS)图像分类在城市规划和环境保护等各个领域中起着至关重要的作用。然而,由于较高的阶层间相似性和类内变异性,实现RSS图像的准确性分类对当前卷积神经网络(CNN)基于基于的卷积神经网络(CNN)和基于视觉变压器(VIT)的方法构成了巨大挑战。为了解决这些问题,本文提出了一种新颖的双重编码方法,该方法从特征提取和融合的两个角度来看,名为Master-Slave编码网络(MSE-NET)。基于VIT的主编码器提取了高级语义特征,而基于CNN的从属编码器捕获了相对较低级别的空间结构信息。sec-,为了有效地整合两个编码器的特征信息,本文进一步制定了两种融合策略。第一个策略涉及辅助增强单元(AEU),该单元消除了两个编码器之间的语义差异,可增强对奴隶编码器的空间环境意识并促进有效的特征学习。交互式感知单元(IPU)作为第二种策略,促进了两个编码器表示的相互作用和集成,以提取更具歧视性的特征信息。此外,我们在四个广泛使用的RSS数据集上进行了比较实验,包括RSSCN7,Siri-Whu,空中图像数据集(AID)和NWPU-RESISC45(NWPU45),以验证有效性
主要关键词