在蒙版的图像建模(MIM)中,存在两个主要方法:像素MIM和潜在MIM,每个方法分别利用不同的重建目标,原始像素和潜在表示。Pixel Mim倾向于捕获低级视觉细节,例如颜色和纹理,而潜在MIM专注于对象的高级语义。但是,每种方法的这些独特的优势可以导致依赖特定视觉特征的任务中的次优性能。为了解决这一限制,我们提出了Pilamim,这是一个统一的框架,结合了像素MIM和潜在MIM以整合其互补优势。我们的方法使用单个编码器以及两个不同的解码器:一个用于预测像素值,另一种用于潜在表示,可确保捕获高级和低级视觉特征。我们将[Cls]令牌进一步集成到重建过程中,以汇总全局上下文,从而使模型能够捕获更多的语义信息。广泛的实验表明,在大多数情况下,Pilamim优于MAE,I-JEPA和BOOTMAE等关键基线,证明了其在提取更丰富的视觉表示方面的有效性。该代码可在https://github.com/joonmy/pilamim.git上找到。
9 KPMG,《KPMG 全球科技报告 2022》(KPMG,2022 年 9 月)。10 政策创新基金会,“小企业法案和初创企业法案 2.0 版基准测试”,生态系统 2023,2023 年 11 月 18 日访问。11 非洲联盟,《非洲数字化转型战略(2020-2030 年)》。12 世界银行集团,《加纳数字经济诊断报告》(华盛顿特区:世界银行,2019 年)。13 Strategy&,《数字化促进经济增长和创造就业:区域和行业视角》(博思艾伦咨询公司,2013 年)。14 创新火花,《加纳创新生态系统报告 2022:年度回顾》(创新火花,2022 年)。
讲师 • 时间 – 讲座:周二 14:00 至 15:00 – 实验室:周二 15:00~17:30,周五 14:00~17:30 • 讲师 – 赵健助理教授和王国兴教授 – 微电子学院,427 室