BigQuery的云原始分类架构使Google Cloud可以发展系统,以满足分析和AI/ML工作负载频谱的几种客户需求。围绕数据湖和企业数据仓库工作负载统一的BigQuery中心的关键要求。此操作结合:(1)需要核心数据管理基本,例如安全性,治理,常见的运行时元数据,性能加速,酸性交易,由企业数据仓库提供,以及(2)以(2)将开源格式和分析性生态系统的灵活性以及诸如新的Work//a Ii ai II ai II II的灵活性以及(2)利用(2)。此外,由于云客户正在选择默认情况下选择多云足迹,因此有很大的要求支持BigQuery。本文描述了Biglake,这是BigQuery向多云的Lakehouse朝着以新颖方式满足这些客户需求的发展。我们描述了该领域的三个主要创新。我们首先呈现Biglake桌,制作开源桌子格式(例如Apache Parquet,Iceberg)一流的公民,在这些格式上为BigQuery和其他开源分析引擎提供了精细的治理执法和性能加速。接下来,我们介绍了Biglake对象表的设计和实施,这些表使BigQuery可以集成AI/ML,以通过非结构化数据推导和处理。最后,我们提出了Omni,这是一个在非GCP云上部署BigQuery的平台,重点是我们为提供企业Lakehouse产品提供的基础架构和运营创新,而不管托管数据的云提供商如何。
数据管理和预处理通常会消耗数据科学家所花费的大部分时间。数据架构和数据管道的配置显着影响这项工作的效率。一个新兴的“湖泊”建筑结合了数据湖和数据仓库的特征,消除了管理两层系统的需求。这允许在统一平台上存储和处理原始,结构化和半结构化数据,从而提供更高的性能和将计算与存储相关。在Trase中探索了这种体系结构的能力。Earth,这是商品供应链透明度领域的领先倡议,重点是推动森林砍伐的农产品。本文表明,湖泊架构可以简化复杂的数据管道,同时启用新功能。还表明,这种过渡可以向后兼容,依靠开放标准并降低成本。分析的增强功能包括来自异质来源的数据摄入,数据可发现性,元数据管理,数据共享和管道管理以及数据质量期望的整合。作为另一项案例研究,使用动物运输的卫生记录数据集将图形数据挖掘技术应用于巴西帕拉州的牛肉供应链。采用了用于得出和分析间接采购路径的各种方法,促进了最常见的旅行路线,贸易社区和节点中心性的识别和表征。