深入理解Spark：核心思想与源码分析. 2.1　初识Spark-阿里云开发者社区

深入理解Spark：核心思想与源码分析. 2.1　初识Spark

2017-05-02 1400

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

2.1　初识Spark

2.1.1　Hadoop MRv1的局限

Hadoop1.0版本采用的是MRv1版本的MapReduce编程模型。MRv1版本的实现都封装在org.apache.hadoop.mapred包中，MRv1的Map和Reduce是通过接口实现的。MRv1包括三个部分：

运行时环境（JobTracker和TaskTracker）；

编程模型（MapReduce）；

数据处理引擎（Map任务和Reduce任务）。

MRv1存在以下不足：

可扩展性差：在运行时，JobTracker既负责资源管理又负责任务调度，当集群繁忙时，JobTracker很容易成为瓶颈，最终导致它的可扩展性问题。

可用性差：采用了单节点的Master，没有备用Master及选举操作，这导致一旦Master出现故障，整个集群将不可用。

资源利用率低：TaskTracker 使用slot等量划分本节点上的资源量。slot代表计算资源（CPU、内存等）。一个Task 获取到一个slot 后才有机会运行，Hadoop 调度器负责将各个TaskTracker 上的空闲slot分配给Task使用。一些Task并不能充分利用slot，而其他Task也无法使用这些空闲的资源。slot 分为Map slot 和Reduce slot 两种，分别供MapTask和Reduce Task使用。有时会因为作业刚刚启动等原因导致MapTask很多，而Reduce Task任务还没有调度的情况，这时Reduce slot也会被闲置。

不能支持多种MapReduce框架：无法通过可插拔方式将自身的MapReduce框架替换为其他实现，如Spark、Storm等。

MRv1的示意如图2-1所示。

Apache为了解决以上问题，对Hadoop进行升级改造，MRv2最终诞生了。MRv2重用了MRv1中的编程模型和数据处理引擎，但是运行时环境被重构了。JobTracker被拆分成了通用的资源调度平台（ResourceManager，RM）和负责各个计算框架的任务调度模型（ApplicationMaster，AM）。MRv2中MapReduce的核心不再是MapReduce框架，而是YARN。在以YARN为核心的MRv2中，MapReduce框架是可插拔的，完全可以替换为其他MapReduce实现，比如Spark、Storm等。MRv2的示意如图2-2所示。

Hadoop MRv2虽然解决了MRv1中的一些问题，但是由于对HDFS的频繁操作（包括计算结果持久化、数据备份及shuffle等）导致磁盘I/O成为系统性能的瓶颈，因此只适用于离线数据处理，而不能提供实时数据处理能力。

深入理解Spark：核心思想与源码分析. 2.1　初识Spark

华章出版社

热门文章

最新文章

相关课程

相关电子书

深入理解Spark：核心思想与源码分析. 2.1 初识Spark

华章出版社

热门文章

最新文章

相关课程

相关电子书

深入理解Spark：核心思想与源码分析. 2.1　初识Spark