《Hadoop海量数据处理：技术详解与项目实战（第2版）》一2.2　Hadoop架构-阿里云开发者社区

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一2.2　Hadoop架构

2017-05-02 1510

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来异步社区《Hadoop海量数据处理：技术详解与项目实战（第2版）》一书中的第2章，第2.2节，作者：范东来责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.2　Hadoop架构

Hadoop主要由两部分构成：分布式文件系统HDFS和统一资源管理和调度系统YARN。正如前文所述，分布式文件系统主要是用于海量数据的存储，而YARN主要是管理集群的计算资源并根据计算框架的需求进行调度。本节主要是为了让读者对Hadoop的架构有个比较清晰的了解，为后面的安装和学习打下基础。

2.2.1　Hadoop HDFS架构

构成HDFS集群的主要是两类节点，并以主从（master/slave）模式，或者说是管理者-工作者的模式运行，即一个NameNode（管理者）和多个DataNode（工作者）。还有一种节点叫SecondaryNameNode，作为NameNode镜像数据备份。如图2-2所示，图中的所有物理节点构成了一个HDFS集群，而NameNode、DataNode和SecondaryNameNode其实是各自节点上运行的守护进程。所以NameNode既是守护进程，也可以指运行NameNode守护进程的节点。客户端代表用户与整个文件系统交互的客户端。

表2-3列出了HDFS中守护进程的数目及其作用。

2.2.2　YARN架构

构成YARN集群的是两类节点：ResourceManager和NodeManager。同HDFS类似，YARN也采用主从（master/slave）架构，如图2-3所示。

ResourceManager和NodeManager也是两种守护进程，运行在各自的节点上。表2-4列出了ResourceManager和NodeManager守护进程的数目和作用。

2.2.3　Hadoop架构

从上面的介绍读者可以知道，HDFS集群和YARN集群其实由一些守护进程组成，而所有这些守护进程和运行它们的节点就构成了Hadoop集群。如图2-4所示，这个集群的NameNode进程和ResourceManager进程在一个节点上运行，而DataNode和NodeManager在同一个节点上运行着。

值得一提的是，DataNode和NodeManager需要配对部署在同一个节点，但NameNode和ResourceManager却并不一定部署在同一个节点。在生产环境中，为了性能和稳定性考虑，强烈建议NameNode和ResourceManager分开部署。如图2-5所示（为了突出重点，这里省略了SecondaryNameNode和客户端，实际上是存在的），这样也是一个标准的Hadoop集群。

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一2.2　Hadoop架构

2.2　Hadoop架构

2.2.1　Hadoop HDFS架构

2.2.2　YARN架构

2.2.3　Hadoop架构

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一2.2 Hadoop架构

2.2 Hadoop架构

2.2.1 Hadoop HDFS架构

2.2.2 YARN架构

2.2.3 Hadoop架构

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一2.2　Hadoop架构

2.2　Hadoop架构

2.2.1　Hadoop HDFS架构

2.2.2　YARN架构

2.2.3　Hadoop架构