一个大型策划的图像数据集,启用生物多样性的AI
机构名称:
¥ 2.0

我们介绍了Biotrove,这是旨在推进生物多样性应用程序的最大公共访问数据集。Biotrove从Intaturist平台策划,并审查仅包括研究级数据,包含16190万张图像,提供了三个主要王国的前所未有的规模和多样性:Animalia(“动物”),真菌(“ Fungi”),“ Fungi”)和parterae(“植物”),跨越了大约366.6k种。每个图像都用科学名称,分类层次结构和通用名称注释,可提供丰富的元数据,以支持各种物种和生态系统跨越准确的AI模型开发。我们通过释放一套使用4000万个字幕图像的子集(称为Biotrove-Train)训练的剪辑模型来证明Biotrove的价值。This subset focuses on seven categories within the dataset that are underrepresented in standard image recognition models, selected for their critical role in biodiversity and agriculture: Aves ("birds"), Arachnida ("spiders/ticks/mites"), Insecta ("insects"), Plantae ("plants"), Fungi ("fungi"), Mollusca ("snails"), and Reptilia (“蛇/蜥蜴”)。为了支持严格的评估,我们介绍了几个新的基准测试和报告模型的准确性,以跨生活阶段,稀有物种,混杂物种和多种分类学水平进行零拍学习。我们预计生物群将刺激AI模型的开发,这些模型支持用于害虫控制,作物监测,生物多样性评估和环境保护的数字工具。这些进步是确保粮食安全,保存生态系统并减轻气候变化影响的范围。Biotrove公开可用,易于访问,并准备立即使用。

一个大型策划的图像数据集,启用生物多样性的AI

一个大型策划的图像数据集,启用生物多样性的AIPDF文件第1页

一个大型策划的图像数据集,启用生物多样性的AIPDF文件第2页

一个大型策划的图像数据集,启用生物多样性的AIPDF文件第3页

一个大型策划的图像数据集,启用生物多样性的AIPDF文件第4页

一个大型策划的图像数据集,启用生物多样性的AIPDF文件第5页