详细内容或原文请订阅后点击阅览
在Google Cloud上建立现代数据湖泊,并用Apache Iceberg和Apache Spark
忘记数据孤岛。您可以构建一个现代数据湖设施,为您提供交易一致性,模式演变和顶级性能,所有这些都在Apache Iceberg和Apache Spark的一个地方。
来源:KDnuggets赞助内容
大数据分析的格局正在不断发展,组织寻求更灵活,可扩展和成本效益的方法来管理和分析大量数据。这种追求导致了数据湖范式的兴起,该范围将数据湖的低成本存储和灵活性与数据管理能力和数据仓库的交易一致性相结合。这场革命的核心是诸如Apache Iceberg之类的开放式格式和Apache Spark等功能强大的加工引擎,所有这些都由Google Cloud的强大基础架构授权。
Apache Iceberg的兴起:一个用于数据湖的游戏改变者
多年来,数据湖通常建立在云对象存储(例如Google Cloud Storage(GCS))之类的基础上,提供了无与伦比的可扩展性和成本效率。但是,他们通常缺乏传统数据仓库中发现的关键特征,例如用于分析查询的交易一致性,模式的演变和性能优化。这是阿帕奇冰山闪耀的地方。
Apache Iceberg是一种开放式桌子格式,旨在解决这些限制。它位于云存储中的数据文件的顶部(例如Parquet,orc或avro),提供了一层元数据,该元数据将文件集合到高性能的SQL样表中。这是使冰山如此强大的原因: