详细内容或原文请订阅后点击阅览
小数据,大地图:样本稀缺时训练地理空间 ML 模型
当图像、马赛克和数据立方体大量存在,但字段标签昂贵、稀有且不完善时。小数据、大地图:样本稀缺时训练地理空间 ML 模型一文首先出现在《走向数据科学》上。
来源:走向数据科学学习时,最大的瓶颈几乎从来不是 GPU 内存或模型大小。这是您在广阔、昂贵且后勤复杂的景观中可以获得的少量现场样本。本文源自对亚马逊雨林数据的反复讨论和实践经验,其中这个问题以最原始的形式出现:茂密的森林、难以进入的区域以及不随景观变化而扩展的预算。
这里的目标是讨论当收集更多现场数据太昂贵、太慢或根本不可行时如何构建地理空间机器学习模型。这里的昂贵并不是比喻:偏远地区的一个森林清查地块的成本相当于一台用于 ML 模型训练的现代计算机的成本。重点不是现成的配方,而是实际的权衡:要简化什么,在哪里规范化,如何验证,以及当数据集远小于您想要的时如何传达不确定性。
这个问题在环境、林业和遥感应用中经常出现,但它并不是这些环境所独有的。该逻辑适用于任何连续空间变量,其中图像、马赛克和数据立方体大量存在,但字段标签昂贵、稀有且不完美。
地理空间数据的结构挑战
环境现场数据的收集成本始终很高。它需要规划、后勤、设备、员工,而且通常还需要狭窄的季节性窗口。在亚马逊雨林等偏远地区,成本急剧上升:需要船只、长途旅行和复杂的许可。所有这些使得每个额外的样本都非常昂贵,这也适用于热带森林、干旱地区、山顶和海洋。卫星像素和光谱导数相对容易获得,但可靠的现场测量在逻辑上很复杂。
