诸如大语言模型(LLM)和视觉语言模型(VLM)之类的基础模型已显示出在许多域中的特定于任务特定模型,几乎没有进行微调。这种新的人工智能范式激发了我们将预训练的VLM应用于文本到视频检索。尽管这些模型无法直接处理视频,但我们研究了一个简单的解决方法:提示VLM提供视频帧的详细描述,以生成可用于语义文本搜索的文本文档。我们表明,这种简单的方法为使用MSR-VTT基准测试提供了零拍视频检索的竞争基线,这表明将基础模型应用于视频检索的任务。我们提供了广泛的消融,以了解系统的哪些部分对于性能很重要,并突出了许多将VLMS应用于视频检索的途径。