Embed the world: Multimodal AI for searchable aerial imagery at scale
在这篇文章中,我们将介绍问题空间、我们在 Amazon Bedrock 和 Amazon OpenSearch Serverless 上的架构、我们在 OpenStreetMap 基础事实上构建的评估方法、比较嵌入模型、融合策略、字幕和搜索方法的四个实验,以及构建类似系统时可以应用的实用指南。您将了解哪些设计选择推动了地理空间语义搜索,包括为什么 Amazon Nova Multimodal Embeddings 在我们的评估中的两个基准查询中提供了最高的 F1 分数。这里描述的工作演变成 Vexcel Intelligence,一种可搜索的图像产品。