Loading...
机构名称:
¥ 1.0

最近预估计的视觉语言(VLP)模型已成为许多下游任务的骨干,但它们被用作冷冻模型而无需学习。提示学习是一种通过在文本编码器的输入中添加可学习的上下文向量来改善预训练的VLP模型的方法。在下游任务的几次学习方案中,MLE训练可以导致上下文向量在训练数据中拟合占主导地位的图像特征。这种过度适应的可能会损害概括能力,尤其是在训练和测试数据集之间的分布变化的情况下。本文介绍了基于贝叶斯的迅速学习的框架,这可以减轻几乎没有射击的学习应用程序中的过度问题,并提高提示在看不见的情况下的适应性。具体来说,建模与数据相关的先验增强了文本特征的适应性,可用于可见的和看不见的图像特征,并在其之间取决于它们之间的折衷。基于贝叶斯框架,我们在估计目标后分布中利用了Wasserstein等级流,这使我们的提示可以灵活地捕获图像特征的复杂模式。我们通过与现有方法相比显示出统计学上显着的性能改善,证明了在基准数据集上的方法的有效性。该代码可在https://github.com/youngjae-cho/app上找到。

使提示适应性:视觉的贝叶斯建模 - ...

使提示适应性:视觉的贝叶斯建模 -  ...PDF文件第1页

使提示适应性:视觉的贝叶斯建模 -  ...PDF文件第2页

使提示适应性:视觉的贝叶斯建模 -  ...PDF文件第3页

使提示适应性:视觉的贝叶斯建模 -  ...PDF文件第4页

使提示适应性:视觉的贝叶斯建模 -  ...PDF文件第5页