详细内容或原文请订阅后点击阅览
Parquet文件格式 - 您需要知道的一切!
新的数据口味需要新的方法来存储它!了解有关镶木木材文件格式的所有您需要了解的所有内容,即Post Parquet文件格式 - 您需要知道的所有内容!首先出现在数据科学上。
来源:走向数据科学在过去几年中,数据呈指数增长的量,最大的挑战之一已成为寻找存储各种数据口味的最佳方法。与过去(还不远)不同的是,当关系数据库被认为是唯一的方法时,组织现在想要对原始数据进行分析 - 想想社交媒体情感分析,音频/视频文件等 - 通常无法以传统的(关系)方式存储,或者以传统方式存储它们将需要大量的努力和时间,这会增加整体时间 - for-for-for-for-for-analal-analalail-analal-analalal sysis。
数据另一个挑战是以某种方式坚持使用传统方法以结构化的方式存储数据,但无需设计复杂且耗时的ETL工作负载即可将这些数据移至企业数据仓库中。此外,如果您组织中的一半的数据专业人员熟练(可以说是数据科学家,数据工程师)和其他半(数据工程师,数据分析师),该怎么办?您会坚持认为“毕达斯特主义者”学习SQL?还是,反之亦然?
或者,您是否更喜欢一个可以发挥整个数据团队优势的存储选项?我对您有个好消息 - 自2013年以来已经存在类似的事情,这就是Apache Parquet!
Parquet 简而 在我向您展示镶木quet文件格式的来源和出现之前,(至少)有五个主要原因是parquet被认为是存储数据的事实上的标准: 数据压缩 - 通过应用各种编码和压缩算法,Parquet文件提供了减少的内存消耗 数据压缩 列存储 - 这在分析工作负载中至关重要,其中快速数据读取操作是关键要求。但是,在文章后面的后面详细介绍…… 柱状存储 语言不可知论 - 如前所述,开发人员可以使用不同的编程语言来操纵镶木木文件中的数据 olap 选择Parquet
简而