关键字:预告片,多模式学习,视觉语言模型摘要:预告片是促进娱乐,商业和教育领域内容的有效工具。但是,为长视频创建有效的预告片是具有挑战性的,因为它需要为输入视频进行远程多模式建模能力,同时需要维护视听式的一致性,管理场景过渡并保留输出茶筒的事实准确性。由于缺乏公共可用的数据集,沿这项研究方向的进展受到了阻碍。在这项工作中,我们介绍了DocormaryNet,这是1,269家纪录片与他们的预告片配对的集合,其中包含视频,语音,音乐,声音效果和叙述的多模式数据流。使用DocordaryNet,我们提出了一个新的两阶段系统,用于从长纪录片中生成预告片。提出的曲植物系统首先使用预算的大语言模型从纪录片中抄录的叙述中生成预告片,然后选择最相关的视觉内容,以通过语言视觉模型伴随生成的叙述。对于叙述 - 视频匹配,我们探索了两种方法:一种基于预训练的模型,使用鉴定性的对比性语言视觉模型和一个深层的顺序模型,该模型了解叙述和视觉效果之间的映射。我们的实验结果表明,基于训练的方法比直接训练的深度自回归模型更有效地识别相关的视觉内容。
主要关键词