为什么强大的机器学习看似简单 — 第 2 部分 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

为什么强大的机器学习看似简单 — 第 2 部分

2026年7月1日 16:30 33 Comments

下一个泄漏问题不仅仅是暂时的。它与空间、结构和覆盖范围相关。使用 DALL·E 创建的 AI 生成插图《为什么强大的 ML 看似简单 — 第 2 部分》首先出现在《走向数据科学》上。

来源:走向数据科学

[1] 研究了当评估设置有缺陷时，强大的机器学习看起来如何具有欺骗性的说服力。然而，在空间预测问题中，例如涉及资本收益估计、租金预测或价格预测的房地产应用，问题并不会随着解决时间泄漏而结束。即使时间处理得当，如果忽略空间依赖性、重复资产结构和不均匀的区域覆盖，模型看起来仍然比实际情况好得多。在这些情况下，最困难的部分通常不是拟合灵活的模型，而是设计一个评估框架，告诉我们该模型是否真正能够推广到它已经见过的社区、资产类型和细分市场之外。

空间数据在指导可持续举措方面日益发挥着重要作用。地理信息不仅可用于评估房地产价值，还可用于评估城市规划和基础设施投资的领土脆弱性、优化物流和出行服务、改善可达性以及评估保险风险以帮助预防重大灾害损失等应用。在这些背景下，地理不仅仅是另一个特征，它还塑造了产生结果的运营和经济环境。

空间数据的组织方式不像普通的独立行。它具有几何、邻近、邻接和依赖。邻近的地方通常比远处的地方表现得更相似，这是托布勒地理学第一定律通常总结的一个想法：一切事物都与其他事物相关，但邻近的事物比远处的事物更相关[2]。因此，在这些情况下，建模问题会发生变化。训练和测试样本不再是独立的，重复的地理单元可以使预测看起来比真正的概括更容易，并且不均匀的覆盖范围可以使模型看起来可靠，只是因为它是在密集的、观察良好的区域上进行判断的。

空间陷阱

接近度和持久性陷阱

脆弱性细分市场远处的良好的独立的预测看起来模型空间数据城市规划基础设施问题应用机器学习强大的接近度不均匀的覆盖范围空间总结的邻近的均匀的地方结果的灵活的重复的地理学持久性依赖性陷阱不均匀普通的评估事物困难的真正的区域覆盖密集的可达性