Loading...
机构名称:
¥ 1.0

诸如大语言模型(LLM)和视觉语言模型(VLM)之类的基础模型已显示出在许多域中的特定于任务特定模型,几乎没有进行微调。这种新的人工智能范式激发了我们将预训练的VLM应用于文本到视频检索。尽管这些模型无法直接处理视频,但我们研究了一个简单的解决方法:提示VLM提供视频帧的详细描述,以生成可用于语义文本搜索的文本文档。我们表明,这种简单的方法为使用MSR-VTT基准测试提供了零拍视频检索的竞争基线,这表明将基础模型应用于视频检索的任务。我们提供了广泛的消融,以了解系统的哪些部分对于性能很重要,并突出了许多将VLMS应用于视频检索的途径。

用视觉语言模型的零拍视频检索

用视觉语言模型的零拍视频检索PDF文件第1页

用视觉语言模型的零拍视频检索PDF文件第2页

用视觉语言模型的零拍视频检索PDF文件第3页

用视觉语言模型的零拍视频检索PDF文件第4页

用视觉语言模型的零拍视频检索PDF文件第5页

相关文件推荐

2025 年
¥23.0
2024 年
¥13.0
1900 年
¥12.0