#AAAI2025未发纸 - DivShift:探索大规模,自愿收集的生物多样性数据集中的特定领域分配变化

诸如Inaturalist之类的公民科学平台的知名度增加,从而推动了生物多样性基础模型的快速发展。但是,此类数据固有地存在偏见,并以机会主义的方式收集,通常偏向某些位置,时间,物种,观察者经验水平和状态。我们的作品,标题为“ Divhift:探索特定于域的分布变化,以志愿者收集的生物多样性[…]

来源:ΑΙhub

诸如Inaturalist之类的公民科学平台的知名度增加,从而推动了生物多样性基础模型的快速发展。但是,此类数据固有地存在偏见,并以机会主义的方式收集,通常偏向某些位置,时间,物种,观察者经验水平和状态。

我们的工作标题为“ DivShift:探索大规模,自愿收集的生物多样性数据集中的特定领域分布变化”,解决了量化这些偏见对深度学习模型表现的影响的挑战。

DivShift:探索大规模的,志愿者收集的生物多样性数据集中的特定域特定分布变化

公民科学数据中的偏见

生物多样性数据中存在的偏见包括空间偏见,时间偏见,分类偏见,观察者行为偏见和社会政治偏见。

AI模型通常假设培训数据是独立的,并且分布相同(I.I.D。)。但是志愿者收集的生物多样性数据违反了这些假设。例如,城市地区或超凡魅力的物种(如开花)受到了不成比例的关注。这些偏见已在生态文献中有充分的文献记录,但在从这些数据中开发深度学习模型中经常被忽略或忽略。这种不平衡的采样可以限制模型在较少访问的区域和较少具有超凡魅力的物种中的准确性。此外,在没有解决这些偏见的情况下,对公民科学数据风险误导了保护工作的模型,并在最需要的地方失败了。

DivShift框架和DivShift-NAWC数据集

a b 火车 测试 B测试 DivShift J d pa pb (a)Divshift-Nawc的inaturalist观察的密度图。观察偏向美国和沿海国家。 (b)Divshift-Nawc跨越了各种栖息地和生态系统,(c)以及气候。(d)Divshift-Nawc观察结果集中在人类修饰的地区[2]。 Divshift-北美西海岸(NAWC) 空间: 时间: 分类学: 观察者参与: 代码 B测试 DivShift J d pa

pb

(a)Divshift-Nawc的inaturalist观察的密度图。观察偏向美国和沿海国家。 (b)Divshift-Nawc跨越了各种栖息地和生态系统,(c)以及气候。(d)Divshift-Nawc观察结果集中在人类修饰的地区[2]。 Divshift-北美西海岸(NAWC) 空间: 时间: 分类学: 观察者参与:代码