基于扩散的生成模型创建令人信服的图像的令人印象深刻的能力引起了全球关注。然而,它们的复杂内部结构和操作通常会挑战非专家。我们引入了扩散,这是第一个交互式可视化工具,以阐明稳定的扩散变速器如何在图像中提示稳定。它紧密地概述了稳定扩散的组件的视觉概述,并详细说明了其基础操作。此集成使用户能够通过动画和交互式元素在多个级别的抽象之间流动过渡。提供实时的动手体验,扩散解释器允许用户在而无需安装或专业硬件的情况下调整稳定扩散的超参数和提示。通过用户的网络浏览器访问,扩散范围在民主的AI教育方面取得了长足的进步,从而促进了更广泛的公共服务。超过7,200名跨越113个国家/地区的用户在https:// poloclub上使用了我们的开源工具。github.io/diffusion-explainer/。可以在https://youtu.be/mbkiadzjpna上获得视频演示。
摘要 — 蒙蔽图像建模 (MIM) 在各种视觉任务上都取得了令人鼓舞的结果。然而,学习到的表征的有限辨别能力表明,在构建更强大的视觉学习器方面仍有许多工作要做。为了实现这一目标,我们提出了对比蒙蔽自编码器 (CMAE),这是一种新的自监督预训练方法,用于学习更全面、更强大的视觉表征。通过新颖的设计精心统一对比学习 (CL) 和蒙蔽图像模型 (MIM),CMAE 利用它们各自的优势,学习具有强大实例辨别能力和局部可感知能力的表征。具体而言,CMAE 由两个分支组成,其中在线分支是非对称编解码器,动量分支是动量更新编码器。在训练期间,在线编码器从蒙蔽图像的潜在表示重建原始图像以学习整体特征。动量编码器以完整图像为输入,通过与在线编码器进行对比学习来增强特征辨别能力。为了使 CL 与 MIM 兼容,CMAE 引入了两个新组件:用于生成可信正视图的像素移位和用于补充对比对特征的特征解码器。得益于这些新颖的设计,CMAE 相比 MIM 有效地提升了表征质量和迁移性能。CMAE 在图像分类、语义分割和目标检测等竞争激烈的基准测试中取得了最佳性能。值得注意的是,CMAE-Base 在 ImageNet 上实现了 85.3% 的 top-1 准确率,在 ADE20k 上实现了 52.5% 的 mIoU,分别比之前的最好成绩提高了 0.7% 和 1.8%。源代码可在 https://github.com/ZhichengHuang/CMAE 公开访问。