从 NetCDF 到见解:城市级气候风险分析的实用流程

将 CMIP6 预测、ERA5 再分析和影响模型集成到一个轻量级、可解释的工作流程中帖子《从 NetCDF 到见解:城市级气候风险分析的实用流程》首先出现在《走向数据科学》上。

来源:走向数据科学

研究本质上已经转向处理大型数据集。大规模地球系统模型 (ESM) 和再分析产品(例如 CMIP6 和 ERA5)不再仅仅是科学数据存储库,而是海量高维、PB 级时空数据集,需要进行广泛的数据工程才能用于分析。

从机器学习和数据架构的角度来看,将气候科学转化为政策的过程类似于经典的流程:原始数据摄入、特征工程、确定性建模和最终产品生成。然而,与表格数据上的传统机器学习相比,计算气候学提出了诸如不规则时空尺度、非线性气候特定阈值以及保留复杂得多的物理可解释性的必要性等问题。

本文提出了一个轻量级且实用的管道,它弥合了原始气候数据处理和应用影响建模之间的差距,将 NetCDF 数据集转换为可解释的城市级风险洞察。

问题:从原始张量到决策就绪洞察力

尽管全球范围内前所未有地发布了高分辨率气候数据,但将其转化为针对特定地点且可操作的见解仍然并非易事。大多数时候,问题不是没有数据,而是没有数据。这是数据格式的复杂化。

气候数据通常保存在网络通用数据表 (NetCDF) 中。这些文件:

  • 包含巨大的多维数组(张量通常具有时间×纬度×经度×变量的形状)。
  • 即使在统计分析之前,也需要进行相当严重的空间屏蔽、时间聚合和对齐坐标参考系统 (CRS)。
  • 本质上对于城市规划者和经济学家通常使用的表格结构(例如 SQL 数据库或 Pandas DataFrames)来说是不可理解的。
  • 基础数据源

    特定地点的基线:定义极热