在Google Cloud上建立现代数据湖泊,并用Apache Iceberg和Apache Spark

忘记数据孤岛。您可以构建一个现代数据湖设施,为您提供交易一致性,模式演变和顶级性能,所有这些都在Apache Iceberg和Apache Spark的一个地方。

来源:KDnuggets

赞助内容

大数据分析的格局正在不断发展,组织寻求更灵活,可扩展和成本效益的方法来管理和分析大量数据。这种追求导致了数据湖范式的兴起,该范围将数据湖的低成本存储和灵活性与数据管理能力和数据仓库的交易一致性相结合。这场革命的核心是诸如Apache Iceberg之类的开放式格式和Apache Spark等功能强大的加工引擎,所有这些都由Google Cloud的强大基础架构授权。

Apache Iceberg的兴起:一个用于数据湖的游戏改变者

多年来,数据湖通常建立在云对象存储(例如Google Cloud Storage(GCS))之类的基础上,提供了无与伦比的可扩展性和成本效率。但是,他们通常缺乏传统数据仓库中发现的关键特征,例如用于分析查询的交易一致性,模式的演变和性能优化。这是阿帕奇冰山闪耀的地方。

Apache Iceberg是一种开放式桌子格式,旨在解决这些限制。它位于云存储中的数据文件的顶部(例如Parquet,orc或avro),提供了一层元数据,该元数据将文件集合到高性能的SQL样表中。这是使冰山如此强大的原因:

  • 酸合规性:冰山将原子性,一致性,隔离和耐用性(酸)特性带到您的数据湖中。这意味着数据写入是交易的,即使并发操作也可以确保数据完整性。不再有部分写作或不一致的读物。
  • 酸合规性:
  • 架构进化:传统数据湖泊中最大的痛点之一是管理模式变化。 Iceberg无缝处理模式进化,使您可以添加,删除,重命名或重新排序列,而无需重写基础数据。这对于敏捷数据开发至关重要。
  • 架构进化: 隐藏分区: 时间旅行和回滚: 存储写入API 外部