HDFS Federation简介

  1. 云栖社区>
  2. Apache Spark中国技术社区>
  3. 博客>
  4. 正文

HDFS Federation简介

阿里云E-MapReduce团队 2019-07-26 16:58:12 浏览391
展开阅读全文

背景

熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的GFS实现的开源系统,设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的HDFS架构中有2个NameNode和多个DataNode,如下:

image

从上面可以看出 HDFS 的架构其实大致可以分为两层:

  • Namespace:由目录,文件和数据块组成,支持常见的文件系统操作,例如创建,删除,修改和列出文件和目录。
  • Block Storage Service:这个部分又由两部分组成:

    • 存储(Storage)

      • 是由DataNode提供,主要在本地文件系统存储数据块,并提供读写访问。
    • 数据块管理(Block Management),这个模块由NameNode提供

      • 通过处理DataNode的注册和定期心跳来提供集群中DataNode的基本关系;
      • 维护数据到数据块的映射

网友评论

登录后评论
0/500
评论
阿里云E-MapReduce团队
+ 关注
所属云栖号: Apache Spark中国技术社区