摘要。预先训练的视觉模型(VLMS)的出色概括能力使下游零镜头任务的微调VLM是流行的选择。尽管在基础类的专业性中取得了令人鼓舞的表现,但大多数现有的微调方法都遭受了新颖类的特征混乱,导致不满意的可转移性。为了解决这个问题,我们提出了一种称为基于及时的变分适配器(PVA)的分裂和争议方法,该方法通过分开基础和新样本来明确减少预测偏差。指定,我们设计了两个具有可学习的文本令牌的变异适配器,以使共享潜在空间中每种模态的潜在表示。一旦受过训练,我们就可以使用潜在特征的相似性度量,即将混乱任务转换为两个独立的样本(一个用于基本类别,另一个用于新颖的类别)。此外,为了提高新颖类的可传递性,我们通过残留连接进一步完善了具有全局特征的学习适配器的输出特征。我们对广义零射门学习和交叉传输的学习进行了广泛的实验,以证明我们的方法的优势,并在四个流行的基准上建立新的最先进的方法。
主要关键词