掌握Hadoop,第1部分:安装,配置和现代大数据策略

涵盖Hadoop设置,HDFS命令,MAPREDUCE,调试,优势,挑战以及大数据技术的未来的全面指南。《掌握Hadoop》,第1部分:安装,配置和现代大数据策略首先出现在数据科学方面。

来源:走向数据科学

如今,在互联网上收集了大量数据,这就是为什么公司面临能够有效存储,处理和分析这些量的挑战的原因。 Hadoop是Apache软件基金会的开源框架,近年来已成为领先的大数据管理技术之一。该系统启用了跨多个服务器的分布式存储和数据处理。结果,它为从数据分析到机器学习的广泛应用提供了可扩展的解决方案。

大数据

本文提供了Hadoop及其组件的全面概述。我们还检查了基本体系结构,并提供了起步的实用技巧。

在我们开始之前,我们需要提到Hadoop的整个主题都是巨大的,即使本文已经很长,它甚至还没有在所有主题上详细介绍过多的细节。这就是为什么我们将其分为三个部分:让您自己决定要深入研究它:

第1部分:Hadoop 101:是什么,为什么重要,谁应该关心

此部分适用于所有对大数据和数据科学感兴趣的人,他们希望了解这种经典工具并了解其缺点。

第2部分:动手:设置和扩展Hadoop

所有不受Hadoop的缺点和生态系统大小而害怕的读者,都可以使用此部分来获取他们如何从第一个本地群集开始的指导方针,以了解如何操作它的基础知识。

第3部分:Hadoop生态系统:从您的集群中获得最大收益

在本节中,我们在引擎盖下进行解释核心组件以及如何进一步提高它们以满足您的要求。

mapReduce

hadoop从根本上不同于传统的关系数据库(RDBMS):

attributeHadoOprDBMS 属性 hadoop RDBMS 数据结构建筑,半结构和非结构化数据构造数据 数据结构 结构化数据 处理 可伸缩性 灵活性 RDBMS 数据结构建筑,半结构和非结构化数据构造数据 数据结构 结构化数据 处理 可伸缩性灵活性