《深入理解Spark:核心思想与源码分析》——3.1节SparkContext概述-阿里云开发者社区

《深入理解Spark:核心思想与源码分析》——3.1节SparkContext概述

2017-05-02 1562

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第3章，第3.1节SparkContext概述，作者耿嘉安，更多章节内容可以访问云栖社区“华章社区”公众号查看

3.1　SparkContext概述
Spark Driver用于提交用户应用程序，实际可以看作Spark的客户端。了解Spark Driver的初始化，有助于读者理解用户应用程序在客户端的处理过程。
Spark Driver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是所有Spark应用程序的发动机引擎，轿车要想跑起来，发动机首先要启动。SparkContext初始化完毕，才能向Spark集群提交任务。在平坦的公路上，发动机只需以较低的转速、较低的功率就可以游刃有余；在山区，你可能需要一台能够提供大功率的发动机才能满足你的需求。这些参数都是通过驾驶员操作油门、档位等传送给发动机的，而SparkContext的配置参数则由SparkConf负责，SparkConf就是你的操作面板。
SparkConf的构造很简单，主要是通过ConcurrentHashMap来维护各种Spark的配置属性。SparkConf代码结构见代码清单3-1。Spark的配置属性都是以“spark.”开头的字符串。
代码清单3-1　SparkConf代码结构

class SparkConf(loadDefaults: Boolean) extends Cloneable with Logging {
    import SparkConf._
    def this() = this(true)
    private val settings = new ConcurrentHashMap[String, String]()
    if (loadDefaults) {
        // 加载任何以spark.开头的系统属性
        for ((key, value) <- Utils.getSystemProperties if key.startsWith("spark.")) {
            set(key, value)
        }
    }
//其余代码省略
现在开始介绍SparkContext。SparkContext的初始化步骤如下：
1）创建Spark执行环境SparkEnv；
2）创建RDD清理器metadataCleaner；
3）创建并初始化Spark UI；
4）Hadoop相关配置及Executor环境变量的设置；
5）创建任务调度TaskScheduler；
6）创建和启动DAGScheduler；
7）TaskScheduler的启动；
8）初始化块管理器BlockManager（BlockManager是存储体系的主要组件之一，将在第4章介绍）；
9）启动测量系统MetricsSystem；
10）创建和启动Executor分配管理器ExecutorAllocationManager；
11）ContextCleaner的创建与启动；
12）Spark环境更新；
13）创建DAGSchedulerSource和BlockManagerSource；
14）将SparkContext标记为激活。
SparkContext的主构造器参数为SparkConf，其实现如下。
class SparkContext(config: SparkConf) extends Logging with ExecutorAllocationClient {
private val creationSite: CallSite = Utils.getCallSite()
    private val allowMultipleContexts: Boolean =
        config.getBoolean("spark.driver.allowMultipleContexts", false)
    SparkContext.markPartiallyConstructed(this, allowMultipleContexts)
上面代码中的CallSite存储了线程栈中最靠近栈顶的用户类及最靠近栈底的Scala或者Spark核心类信息。Utils.getCallSite的详细信息见附录A。SparkContext默认只有一个实例（由属性spark.driver.allowMultipleContexts来控制，用户需要多个SparkContext实例时，可以将其设置为true），方法markPartiallyConstructed用来确保实例的唯一性，并将当前SparkContext标记为正在构建中。
接下来会对SparkConf进行复制，然后对各种配置信息进行校验，代码如下。
private[spark] val conf = config.clone()
conf.validateSettings()

if (!conf.contains("spark.master")) {
    throw new SparkException("A master URL must be set in your configuration")
}
if (!conf.contains("spark.app.name")) {
    throw new SparkException("An application name must be set in your configuration")
}

从上面校验的代码看到必须指定属性spark.master 和spark.app.name，否则会抛出异常，结束初始化过程。spark.master用于设置部署模式，spark.app.name用于指定应用程序名称。

《深入理解Spark:核心思想与源码分析》——3.1节SparkContext概述

热门文章

最新文章

相关课程

相关电子书