详细内容或原文请订阅后点击阅览
掌握Hadoop,第3部分:Hadoop生态系统:充分利用您的集群
探索Hadoop生态系统 - 最大化群集潜在的帖子掌握Hadoop的关键工具,第3部分:Hadoop Ecosystem:从您的集群中获得最大的收益,首先出现在数据科学上。
来源:走向数据科学正如我们已经在基本组件(第1部分,第2部分)中看到的那样,Hadoop生态系统正在不断发展并针对新应用程序进行了优化。结果,随着时间的流逝,各种工具和技术都使Hadoop更强大,甚至更广泛地适用。结果,它超越了纯HDFS和MAPREDUCE平台,例如SQL,以及NOSQL查询或实时流。
第1部分 第2部分Hive/hiveql
Apache Hive是一个数据仓库系统,允许在Hadoop群集上进行类似SQL的查询。传统的关系数据库在大型数据集中与水平可伸缩性和酸性特性抗争,这是Hive Shing的地方。它可以通过类似SQL的查询语言HIVEQL启用查询Hadoop数据,而无需复杂的MapReduce作业,使业务分析师和开发人员可以访问它。
hiveqlApache Hive因此,可以使用类似SQL的查询语言查询HDFS数据系统,而不必在Java中编写复杂的MapReduce过程。这意味着业务分析师和开发人员可以使用HiveQL(Hive查询语言)来创建简单的查询并基于Hadoop数据架构进行评估。
业务分析师Hive最初是由Facebook开发的,用于处理大量结构化和半结构化数据。它对于批处理分析特别有用,可以使用Tableau或Apache Superset等通用商业智能工具进行操作。
TableauMetastore是存储元数据的中央存储库,例如表定义,列名和HDFS位置信息。这使Hive可以管理和组织大型数据集。另一方面,执行引擎将HiveQL查询转换为Hadoop可以处理的任务。根据所需的性能和基础架构,您可以选择不同的执行引擎:
metastore 执行引擎