Hadoop 基本构造块-阿里云开发者社区

Hadoop 基本构造块

2017-11-08 1194

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Hadoop整体架构是分布式的主/从架构，由一组守护进程和一组宿主程序组成，守护进程有：NameNode，DataNode，Secondary NameNode，JobTracker，TaskTracker

其中NameNode,DataNode,Secondary NameNode被划分为存储进程类，而JobTracker和TaskTracker被划分为计算进程类。

正如如下图所示：

NameNode：

NameNode是Hadoop分布式存储系统(HDFS)的主节点(master node)，它自己不参与I/O任务，而是把这些任务交给它所管理的DataNode去完成。NameNode将文件系统的元数据都存储于内存中。

DataNode：

DataNode是Hadoop分布式存储系统(HDFS)的从节点（slave node),他们负责实际读写HDFS块的任务（一个大文件会被分为多个HDFS block),并持续将状态报告给NameNode.

NameNode和DataNode关系如下图：

Secondary NameNode:

Secondary NameNode 是集群中用来监控HDFS 集群状态的一个辅助进程。它也和NameNode不一样的是它不接受和记录HDFS的任何实时改变。相反，它只和NameNode打交道，并且定期收集HDFS 状态的快照(snapshot) ,它主要用于当NameNode出故障时的恢复工作。

Job Tracker:

Job Tracker是我们应用程序和Hadoop的联系人，当我们提交代码到Hadoop 集群时，它会确定执行计划，包括决定处理哪些文件，为每个节点分配不同的任务（实际上是分配给Task Tracker，然后转交），并且监控所有运行的任务。这个进程一般运行在集群的主节点上。

Task Tracker:

Task Tracker管理着从节点(slave node)上单个任务的执行，并且它要持续发送“心跳”（heartbeat）给Job Tracker来通知其状态。

Job Tracker和Task Tracker关系如下图：

本文转自 charles_wang888 51CTO博客，原文链接：http://blog.51cto.com/supercharles888/875983，如需转载请自行联系原作者

Hadoop 基本构造块

热门文章

最新文章

相关课程

相关电子书

相关实验场景