Loading...
机构名称:
¥ 1.0

在这项工作中,我们证明,由于现有评估协议和数据集中的不足,因此有必要重新审视并全面研究Mul-timodal零射击学习(MZSL)问题问题。具体来说,我们解决了MZSL方法面临的两个主要挑战。 (1)既定基线的情况通常是无与伦比的,而且有时甚至是有缺陷的,因为现有的评估数据集通常与培训数据集有一些重叠,因此违反了零照片范式; (2)大多数现有的方法都偏向可见的类,这在对可见和看不见的类别进行评估时会大大降低性能。为了应对这些挑战,我们首先引入了一个新的多模式数据集,用于零照片评估,称为MZSL-50,其中有4462个视频来自50个广泛多元化的类别,并且与培训数据没有重叠。此外,我们提出了一种新型的多模式零射击变压器(MZST)体系结构,该体系结构利用了吸引瓶颈进行多模式融合。我们的模型可以直接预测语义表示,并且在将偏见降低到可见的类别方面表现出色。我们进行了广泛的消融研究,并在三个基准数据集和我们的新型MZSL-50数据集上实现最先进的结果。具体来说,我们提高了传统的MZSL绩效2。1%,9。81%和8。 vgg-sound,UCF-101和ActivityNet的68%。 最后,我们希望引入MZSL-50数据集将促进对社区中多模式零射击的深入研究。 181%和8。vgg-sound,UCF-101和ActivityNet的68%。最后,我们希望引入MZSL-50数据集将促进对社区中多模式零射击的深入研究。1

零射击学习的多模式基准和改进的体系结构

零射击学习的多模式基准和改进的体系结构PDF文件第1页

零射击学习的多模式基准和改进的体系结构PDF文件第2页

零射击学习的多模式基准和改进的体系结构PDF文件第3页

零射击学习的多模式基准和改进的体系结构PDF文件第4页

零射击学习的多模式基准和改进的体系结构PDF文件第5页