详细内容或原文请订阅后点击阅览
为什么强大的机器学习看似简单 — 第 2 部分
下一个泄漏问题不仅仅是暂时的。它与空间、结构和覆盖范围相关。使用 DALL·E 创建的 AI 生成插图《为什么强大的 ML 看似简单 — 第 2 部分》首先出现在《走向数据科学》上。
来源:走向数据科学[1] 研究了当评估设置有缺陷时,强大的机器学习看起来如何具有欺骗性的说服力。然而,在空间预测问题中,例如涉及资本收益估计、租金预测或价格预测的房地产应用,问题并不会随着解决时间泄漏而结束。即使时间处理得当,如果忽略空间依赖性、重复资产结构和不均匀的区域覆盖,模型看起来仍然比实际情况好得多。在这些情况下,最困难的部分通常不是拟合灵活的模型,而是设计一个评估框架,告诉我们该模型是否真正能够推广到它已经见过的社区、资产类型和细分市场之外。
空间数据在指导可持续举措方面日益发挥着重要作用。地理信息不仅可用于评估房地产价值,还可用于评估城市规划和基础设施投资的领土脆弱性、优化物流和出行服务、改善可达性以及评估保险风险以帮助预防重大灾害损失等应用。在这些背景下,地理不仅仅是另一个特征,它还塑造了产生结果的运营和经济环境。
空间数据的组织方式不像普通的独立行。它具有几何、邻近、邻接和依赖。邻近的地方通常比远处的地方表现得更相似,这是托布勒地理学第一定律通常总结的一个想法:一切事物都与其他事物相关,但邻近的事物比远处的事物更相关[2]。因此,在这些情况下,建模问题会发生变化。训练和测试样本不再是独立的,重复的地理单元可以使预测看起来比真正的概括更容易,并且不均匀的覆盖范围可以使模型看起来可靠,只是因为它是在密集的、观察良好的区域上进行判断的。
