Loading...
机构名称:
¥ 1.0

摘要 — 蒙蔽图像建模 (MIM) 在各种视觉任务上都取得了令人鼓舞的结果。然而,学习到的表征的有限辨别能力表明,在构建更强大的视觉学习器方面仍有许多工作要做。为了实现这一目标,我们提出了对比蒙蔽自编码器 (CMAE),这是一种新的自监督预训练方法,用于学习更全面、更强大的视觉表征。通过新颖的设计精心统一对比学习 (CL) 和蒙蔽图像模型 (MIM),CMAE 利用它们各自的优势,学习具有强大实例辨别能力和局部可感知能力的表征。具体而言,CMAE 由两个分支组成,其中在线分支是非对称编解码器,动量分支是动量更新编码器。在训练期间,在线编码器从蒙蔽图像的潜在表示重建原始图像以学习整体特征。动量编码器以完整图像为输入,通过与在线编码器进行对比学习来增强特征辨别能力。为了使 CL 与 MIM 兼容,CMAE 引入了两个新组件:用于生成可信正视图的像素移位和用于补充对比对特征的特征解码器。得益于这些新颖的设计,CMAE 相比 MIM 有效地提升了表征质量和迁移性能。CMAE 在图像分类、语义分割和目标检测等竞争激烈的基准测试中取得了最佳性能。值得注意的是,CMAE-Base 在 ImageNet 上实现了 85.3% 的 top-1 准确率,在 ADE20k 上实现了 52.5% 的 mIoU,分别比之前的最好成绩提高了 0.7% 和 1.8%。源代码可在 https://github.com/ZhichengHuang/CMAE 公开访问。

对比掩蔽自编码器是更强大的视觉学习者

对比掩蔽自编码器是更强大的视觉学习者PDF文件第1页

对比掩蔽自编码器是更强大的视觉学习者PDF文件第2页

对比掩蔽自编码器是更强大的视觉学习者PDF文件第3页

对比掩蔽自编码器是更强大的视觉学习者PDF文件第4页

对比掩蔽自编码器是更强大的视觉学习者PDF文件第5页

相关文件推荐