对比掩蔽自编码器是更强大的视觉学习者__

对比掩蔽自编码器是更强大的视觉学习者

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

对比掩蔽自编码器是更强大的视觉学习者

¥ 1.0

热度

摘要 — 蒙蔽图像建模 (MIM) 在各种视觉任务上都取得了令人鼓舞的结果。然而，学习到的表征的有限辨别能力表明，在构建更强大的视觉学习器方面仍有许多工作要做。为了实现这一目标，我们提出了对比蒙蔽自编码器 (CMAE)，这是一种新的自监督预训练方法，用于学习更全面、更强大的视觉表征。通过新颖的设计精心统一对比学习 (CL) 和蒙蔽图像模型 (MIM)，CMAE 利用它们各自的优势，学习具有强大实例辨别能力和局部可感知能力的表征。具体而言，CMAE 由两个分支组成，其中在线分支是非对称编解码器，动量分支是动量更新编码器。在训练期间，在线编码器从蒙蔽图像的潜在表示重建原始图像以学习整体特征。动量编码器以完整图像为输入，通过与在线编码器进行对比学习来增强特征辨别能力。为了使 CL 与 MIM 兼容，CMAE 引入了两个新组件：用于生成可信正视图的像素移位和用于补充对比对特征的特征解码器。得益于这些新颖的设计，CMAE 相比 MIM 有效地提升了表征质量和迁移性能。CMAE 在图像分类、语义分割和目标检测等竞争激烈的基准测试中取得了最佳性能。值得注意的是，CMAE-Base 在 ImageNet 上实现了 85.3% 的 top-1 准确率，在 ADE20k 上实现了 52.5% 的 mIoU，分别比之前的最好成绩提高了 0.7% 和 1.8%。源代码可在 https://github.com/ZhichengHuang/CMAE 公开访问。

添加pdf代下载 VIP点击下载文件

对比掩蔽自编码器是更强大的视觉学习者

主要关键词

MIM 图像 CMAE 视觉图像分类解码器蒙蔽辨别提高质量编码器正视图视觉学输入训练期特征的原始图像能力强大的非对称源代码训练方法表征特征学习各自的用于对比动量激烈的

对比掩蔽自编码器是更强大的视觉学习者PDF文件第1页

对比掩蔽自编码器是更强大的视觉学习者PDF文件第2页

对比掩蔽自编码器是更强大的视觉学习者PDF文件第3页

对比掩蔽自编码器是更强大的视觉学习者PDF文件第4页

对比掩蔽自编码器是更强大的视觉学习者PDF文件第5页

可下载资源数量

已经购买

下载数量：1

对比掩蔽自编码器是更强大的视觉学习者

对比掩蔽自编码器是更强大的视觉学习者

相关文件推荐

视觉学习者的社交故事

点云模型改善了机器人学习者的视觉鲁棒性

幼儿中快速且强大的视觉对象识别

从EEG脑记录中学习强大的深视觉表示

幼儿中快速且强大的视觉对象识别

强大的。

视觉

强大的。

强大的

视觉

视觉

视觉调优

显微镜的掩盖自动编码器是细胞生物学的可扩展学习者

vit-ae ++：改进自我视觉变压器自动编码器...

计算机视觉

计算机视觉

机器视觉

机器视觉

计算机视觉

通过强大的治理

计算机视觉

计算机视觉

微气候视觉

机器视觉

强大的杰里米

朝着更强大的建筑建筑

视觉护理

趋势视觉一

强大的基础：

计算机视觉

XiaoMi-AI