代理-FDA:基于代理的特征分配对齐,用于微调视觉基础模型,而无需忘记

Vision Foundation基础模型在大规模数据上进行了预训练,编码了现实世界概念的丰富表示形式,可以通过微调将其适用于下游任务。但是,一项任务的微调基础模型通常会导致概念忘记其他任务的问题。最新的良好微调方法旨在减轻忘记先验知识而不影响微调的性能。通常通过匹配原始和微调的模型权重或特征对来保留知识。但是,这样的点匹配可能太强了,而没有明确的意识……

来源:Apple机器学习研究

Vision Foundation基础模型在大规模数据上进行了预训练,编码了现实世界概念的丰富表示形式,可以通过微调将其适用于下游任务。但是,一项任务的微调基础模型通常会导致概念忘记其他任务的问题。最新的良好微调方法旨在减轻忘记先验知识而不影响微调的性能。通常通过匹配原始和微调的模型权重或特征对来保留知识。但是,这样的角度匹配可能太强了,而不会明确意识到对丰富知识的特征邻里结构的认识。我们提出了一种新型的正则化方法代理FDA,该方法明确保留了特征空间中的结构知识。代理FDA在预训练和微调的特征空间之间执行特征分布对齐(使用最近的邻居图),并且通过动态生成的信息代理进一步改善了对齐,以提高数据多样性。实验表明,代理FDA显着降低了微调期间的概念遗忘,并且我们发现忘记与分布距离度量标准(与L2距离相比)之间存在很强的相关性。我们进一步证明了代理FDA在各种微调设置(端到端,很少射击和连续调整)以及跨越图像分类,字幕和VQA等不同任务中的好处。