详细内容或原文请订阅后点击阅览
使用开源和 Databricks 构建地理空间 Lakehouse
矢量地理空间数据科学的示例工作流程使用开源和 Databricks 构建地理空间 Lakehouse 的帖子首先出现在 Towards Data Science 上。
来源:走向数据科学与现实世界中可测量过程相关的大多数数据都具有地理空间方面的特征。对于管理广泛地理区域资产的组织,或者其业务流程需要考虑需要映射的多层地理属性的组织,当他们开始使用这些数据来回答战略问题或优化时,将有更复杂的地理空间分析要求。这些专注于地理空间的组织可能会对他们的数据提出以下类型的问题:
我的资产有多少位于某个地理边界内?我的客户步行或开车到达某个地点需要多长时间?我预计每单位面积的客流量密度是多少?
我的资产中有多少属于某个地理边界?
我的客户步行或开车到达某个地点需要多长时间?
每单位面积的人流量密度是多少?
所有这些都是有价值的地理空间查询,需要将许多数据实体集成在公共存储层中,并且缩放地理空间连接(例如多边形内的点操作和地理空间索引)以处理所涉及的输入。本文将讨论使用 Databricks 功能扩展地理空间分析的方法,以及利用 Spark 实现、通用 Delta 表存储格式和 Unity Catalog [1] 的开源工具,重点关注矢量地理空间数据的批量分析。
解决方案概述
地理空间数据准备
将多点几何图形从 WGS84 转换为 Web 墨卡托投影格式。
