摘要 — 蒙蔽图像建模 (MIM) 在各种视觉任务上都取得了令人鼓舞的结果。然而,学习到的表征的有限辨别能力表明,在构建更强大的视觉学习器方面仍有许多工作要做。为了实现这一目标,我们提出了对比蒙蔽自编码器 (CMAE),这是一种新的自监督预训练方法,用于学习更全面、更强大的视觉表征。通过新颖的设计精心统一对比学习 (CL) 和蒙蔽图像模型 (MIM),CMAE 利用它们各自的优势,学习具有强大实例辨别能力和局部可感知能力的表征。具体而言,CMAE 由两个分支组成,其中在线分支是非对称编解码器,动量分支是动量更新编码器。在训练期间,在线编码器从蒙蔽图像的潜在表示重建原始图像以学习整体特征。动量编码器以完整图像为输入,通过与在线编码器进行对比学习来增强特征辨别能力。为了使 CL 与 MIM 兼容,CMAE 引入了两个新组件:用于生成可信正视图的像素移位和用于补充对比对特征的特征解码器。得益于这些新颖的设计,CMAE 相比 MIM 有效地提升了表征质量和迁移性能。CMAE 在图像分类、语义分割和目标检测等竞争激烈的基准测试中取得了最佳性能。值得注意的是,CMAE-Base 在 ImageNet 上实现了 85.3% 的 top-1 准确率,在 ADE20k 上实现了 52.5% 的 mIoU,分别比之前的最好成绩提高了 0.7% 和 1.8%。源代码可在 https://github.com/ZhichengHuang/CMAE 公开访问。
摘要:在智能运输中,辅助驾驶取决于来自各种传感器的数据集成,尤其是LiDAR和相机。但是,它们的光学性能会在不利的天气条件下降低,并可能损害车辆安全性。毫米波雷达可以更经济地克服这些问题,并得到了重新评估。尽管如此,由于噪声干扰严重和语义信息有限,开发准确的检测模型是具有挑战性的。为了应对这些实际挑战,本文提出了TC – radar模型,这是一种新颖的方法,该方法协同整合了变压器的优势和卷积神经网络(CNN),以优化智能运输系统中毫米波雷达的传感潜力。这种集成的基本原理在于CNN的互补性质,该性质擅长捕获局部空间特征和变形金刚,这些特征在数据中擅长建模长距离依赖性和数据中的全局上下文。这种混合方法允许对雷达信号的更强大和准确的表示,从而提高了检测性能。我们方法的关键创新是引入交叉注意(CA)模块,该模块有助于网络的编码器和解码器阶段之间的高效和动态信息交换。此CA机制可确保准确捕获和传输关键特征,从而显着提高整体网络性能。此外,该模型还包含密集的信息融合块(DIFB),以通过整合不同的高频局部特征来进一步丰富特征表示。此集成过程确保了关键数据点的彻底合并。在Cruw和Carrada数据集上进行的广泛测试验证了该方法的优势,模型的平均精度(AP)为83.99%,平均相交(MIOU)的平均交点为45.2%,表明了鲁棒的雷达感应功能。