弱监督时空的视频接地(STVG)旨在给定文本查询,而无需注释的训练数据,旨在将目标对象定位。现有方法通过从视频框架功能中裁剪对象,丢弃所有上下文信息,例如位置变化和实体关系,从而独立于每个候选管。在本文中,我们提出了视频文本提示(VTP)来构建候选功能。从特征图中裁剪管区域,我们绘制视觉标记(例如红色圆圈)作为视频提示上的对象管;相应的文本提示(例如在红色圆圈中)也被插入询问文本的主题单词后,以突出显示其存在。然而,如果没有作物,每个罐头特征都可能看起来相似。为了解决这个问题,我们通过引入负面的对比样本而不是删除候选对象而不是被强调的对比对比样本,进一步提出了Concon-Con-Concon-Conconvive VTP(CVTP);通过合并VTP候选人与对比样本之间的差异,正确候选者和其余部分之间的匹配分数差距被扩大。在几个STVG数据集上进行了广泛的实验和消融,我们的结果通过很大的边距超过了现有的弱监督方法,这证明了我们提出的方法的有效性。
主要关键词