从所见的属性 - 对象对学习以概括为未看到的组合物,已在组合零拍学习(CZSL)中进行了广泛的研究。但是,CZSL设置仍然仅限于看到的属性和对象,并且不能概括地看不见的概念及其组成。为了克服这一局限性,我们提出了一项新任务,开放的词汇 - 组成零 - 折射学习(OV-CZSL),其中评估了未看到的属性,对象和看不见的组成。表明OV-CZSL是一个具有挑战性但可解决的问题,我们提出了基于存在的数据集MIT态的三个新基准(Isela,Lim和Adelson 2015),C-GQA(Mancini等人(Mancini等)(Mancini等人)2022)和vaw-czsl(Saini,Pham和Shrivastava 2022; Pham等人2021),以及新的基准和评估设置。我们将语言嵌入和外部词汇与我们新颖的邻里扩展损失一起使用,以允许任何方法学习观察和看不见的原始物之间的语义相关性。
生成的零拍学习(ZSL)学习了一个生成器来合成看不见类的视觉样本,这是推进ZSL的有效方法。然而,现有的发电方法依赖于高斯噪声和预定义的语义原型的条件,这限制了仅在特定的看到类中优化的发电机,而不是对每个视觉实例进行特征,从而导致概括不良(例如,过度适用于可见的类)。为了解决这个问题,我们提出了一种新颖的视觉启动动态语义原型方法(称为VADS),以增强发电机来学习准确的语义 - 视觉映射,以充分利用视觉效果的知识为语义条件。详细说明,VADS由两个模块组成:(1)视觉吸引域知识学习模块(VDKL)了解视觉特征的偏见和全局先验(称为域的视觉知识),这些偏见取代了纯净的高斯噪声,以提供更丰富的先验噪声信息; (2)以视觉为导向的语义更新模块(VOSU)根据样本的视觉表示更新语义原型。最终,我们将它们的输出作为动态语义原型串联,作为发电机的条件。广泛的实验表明,我们的VAD在三个突出的数据集上实现了上升的CZSL和GZSL prounperces,并且在Sun,Cub和Awa2上分别胜过其他最先进的方法,其平均分别增加了6.4%,5.9%,5.9%和4.2%。
