使用开源大型视觉模型在Amazon Sagemaker和Amazon OpenSearch serverless上实现语义视频搜索

在这篇文章中,我们演示了如何使用自然语言和图像查询使用大型视觉模型(LVM)进行语义视频搜索。我们介绍了一些特定于用例的方法,例如时间框架平滑和聚类,以增强视频搜索性能。此外,我们通过在Amazon Sagemaker AI上使用异步和实时托管选项来演示这种方法的端到端功能,以使用拥抱面部模型中心上的公开可用的LVMS执行视频,图像和文本处理。最后,我们将Amazon OpenSearch与其矢量引擎一起用于低延迟语义视频搜索。

来源:亚马逊云科技 _机器学习
随着公司和个人用户处理不断增长的视频内容,使用自然语言进行低表现搜索以检索视频或视频片段的能力变得越来越有价值。语义视频搜索为此问题提供了有力的解决方案,因此用户可以根据文本查询或描述搜索相关的视频内容。这种方法可以在各种应用中使用,从个人照片和视频库到专业视频编辑或企业级内容的发现和节制,它可以显着改善我们与我们与视频内容互动和管理视频内容的互动方式。长期的计算机量表预训练计算机视觉模型的计算机视觉模型与自然语言的自然语言描述可以通过视觉上的概念来捕获,从而可以通过图像进行自然的概念,从而使其成为可能的概念。培训数据。经过预训练后,自然语言可用于参考学习的视觉概念或描述新的概念,有效地将零射击转移到各种计算机视觉任务集中,例如图像分类,检索和语义分析。在这篇文章中,我们演示了如何使用自然语言和图像查询来使用大型视觉模型(LVMS)进行语义视频搜索。我们介绍了一些特定于用例的方法,例如时间框架平滑和聚类,以增强视频搜索性能。此外,我们通过在Amazon Sagemaker AI上使用异步和实时托管选项来演示这种方法的端到端功能,以使用拥抱面部模型中心上的公开可用的LVMS执行视频,图像和文本处理。最后,我们将Amazon OpenSearch及其矢量引擎使用Amazon OpenSearch Server用于低延迟的语义视频搜索。在此帖子中,我们使用多模式LVM实现视频搜索功能,该搜索能力在训练阶段中整合了文本和视觉模式,