生态学家发现计算机视觉模型在检索野生动物图像方面的盲点

生物多样性研究人员测试了视觉系统检索相关自然图像的能力。更先进的模型在简单查询上表现良好,但在更多特定于研究的提示上表现不佳。

来源:MIT新闻 - 人工智能

尝试拍摄北美大约 11,000 种树种的照片,您只能得到自然图像数据集中数百万张照片中的一小部分。这些庞大的快照集合(从蝴蝶到座头鲸)是生态学家的绝佳研究工具,因为它们提供了生物独特行为、罕见情况、迁徙模式以及对污染和其他形式气候变化的反应的证据。

大约 蝴蝶 座头鲸

虽然自然图像数据集很全面,但还没有发挥应有的作用。搜索这些数据库并检索与您的假设最相关的图像非常耗时。您最好使用自动研究助手 - 或者也许是称为多模态视觉语言模型 (VLM) 的人工智能系统。它们接受过文本和图像方面的训练,因此更容易找到更精细的细节,比如照片背景中的特定树木。

但 VLM 究竟能在多大程度上帮助自然研究人员进行图像检索?来自麻省理工学院计算机科学与人工智能实验室 (CSAIL)、伦敦大学学院、iNaturalist 等机构的团队设计了一个性能测试来找出答案。每个 VLM 的任务:在团队的“INQUIRE”数据集中找到并重新组织最相关的结果,该数据集由 500 万张野生动物图片和来自生态学家及其他生物多样性专家的 250 个搜索提示组成。寻找那只特别的青蛙

寻找那只特别的青蛙 论文 SigLIP 查询 INQUIRE

例如,注释者使用诸如“寄居蟹使用塑料废物作为外壳”和“加州秃鹫标有绿色‘26’”之类的查询来识别描述这些特定罕见事件的较大图像数据集的子集。

好奇的人想看看

好奇的人想看看 演示