嵌入世界：多模态 AI 实现大规模可搜索航空图像 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

嵌入世界：多模态 AI 实现大规模可搜索航空图像

2026年6月22日 16:32 33 Comments

在这篇文章中，我们将介绍问题空间、我们在 Amazon Bedrock 和 Amazon OpenSearch Serverless 上的架构、我们在 OpenStreetMap 基础事实上构建的评估方法、比较嵌入模型、融合策略、字幕和搜索方法的四个实验，以及构建类似系统时可以应用的实用指南。您将了解哪些设计选择推动了地理空间语义搜索，包括为什么 Amazon Nova Multimodal Embeddings 在我们的评估中的两个基准查询中提供了最高的 F1 分数。这里描述的工作演变成 Vexcel Intelligence，一种可搜索的图像产品。

来源:亚马逊云科技 _机器学习

将航空图像库转变为可自然语言搜索的知识库是一个涉及每个依赖地理空间数据的行业（保险、房地产、政府、基础设施和农业）的问题。传统路径需要手动逐块检查或为每个新问题训练定制的计算机视觉模型。 AWS 上的多模态嵌入、大语言模型 (LLM) 字幕和矢量搜索提供了更快的替代方案：索引一次，然后使用自然语言进行查询。

我们与 Vexcel（一家航空影像和地理空间数据提供商，运营着世界上最大的航空影像项目之一）合作，评估多视图航空影像的嵌入模型、融合策略、标题集成和搜索方法。 Vexcel 使用自己的传感器和专用飞机机队，收集超过 45 个国家和地区的高分辨率数据，提供正射影像、多个角度的倾斜影像和高程模型。数据存在，用例也很多，但是将数十亿像素转化为有关现实世界的答案需要更快的路径。

无需按特征训练即可搜索数百万张航拍图像

图 1. Vexcel 的典型倾斜图像，为模型提供丰富的 360 度世界视野

地面真相挑战

道路

影像地理图像地区的视觉模型世界的语义搜索计算机嵌入提供模型航空空间数据定制的基础设施问题角度的 Vexcel 最高的事实上知识库最大的搜索的丰富的高分辨率为什么传感器自己的航空图设计选择搜索应用的分辨率需要 Amazon 替代方案