《Spark Cookbook 中文版》一1.7　在集群上使用YARN部署-阿里云开发者社区

《Spark Cookbook 中文版》一1.7　在集群上使用YARN部署

2017-05-02 2185

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来异步社区《Spark Cookbook 中文版》一书中的第1章，第1.7节，作者：【印度】Rishi Yadav（亚达夫）译者：顾星竹 , 刘见康责编：胡俊英，更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.7　在集群上使用YARN部署

另一种资源协调者（YARN）是基于HDFS这个Hadoop存储层的Hadoop计算框架。

YARN遵循主从架构。主守护进程被称为资源管理器（ResourceManager），从守护进程被称为节点管理器（NodeManager）。除此之外，生命周期管理由ApplicationMaster负责，它可以被派生到任何从节点上并可以生存一个应用的生命周期时长。

如果Spark运行在YARN上的话，资源管理器充当Spark master，节点管理器充当执行节点。

如果Spark运行在YARN上的话，每个Spark执行程序以YARN容器（container）的形式运行。

1.7.1　准备工作

在YARN上部署Spark需要一个拥有YARN支持的Spark二进制安装包。在按照Spark安装教程时，需要注意这一点。

1.7.2　具体步骤

1．在YARN上部署Spark，第一步就是设置配置参数。

HADOOP_CONF_DIR: to write to HDFS
   YARN_CONF_DIR: to connect to YARN ResourceManager
   $ cd /opt/infoobjects/spark/conf (or /etc/spark)
   $ sudo vi spark-env.sh
   export HADOOP_CONF_DIR=/opt/infoobjects/hadoop/etc/Hadoop
   export YARN_CONF_DIR=/opt/infoobjects/hadoop/etc/hadoop

图1-10可见这些配置。

2．以下命令以yarn-client模式启动YARN Spark。

$ spark-submit --class path.to.your.Class --master yarn-client
   [options] <app jar> [app options]

例如：

$ spark-submit --class com.infoobjects.TwitterFireHose —master
   yarn-client --num-executors 3 --driver-memory 4g —executor-memory
   2g --executor-cores 1 target/sparkio.jar 10

3．以下命令以yarn-client模式启动Spark shell。

$ spark-shell --master yarn-client

4．以下命令以yarn-cluster模式启动。

$ spark-submit --class path.to.your.Class --master yarn-cluster
   [options] <app jar> [app options]

例如：

$ spark-submit --class com.infoobjects.TwitterFireHose –master
   yarn-cluster --num-executors 3 --driver-memory 4g --executor-
   memory 2g --executor-cores 1 target/sparkio.jar 10

1.7.3　工作原理

部署在YARN上的Spark应用有两种模式。

yarn-client：Spark驱动运行在YARN集群之外的客户端进程上，并且ApplicationMaster仅用于协商安排资源管理器的资源。
yarn-cluster：Spark驱动运行在由从节点的节点管理器派生出来的ApplicationMaster上。

yarn-cluster模式建议用于生产环境部署，而yarn-client模式很适合用于开发和调试，因为你可以立即看到输出。不需要特别分别Spark master在哪个模式下，因为它由Hadoop配置决定，master的参数要么是yarn-client，要么是yarn-cluster。

图1-11是client模式下在YARN上部署Spark的架构图。

图1-12是cluster模式下在YARN上部署Spark的架构图。

在YARN模式下，可以配置如下参数。

num-executors：配置可分配执行程序数。
executor-memory：每个执行程序的内存（RAM）。
executor-cores：每个执行程序的CPU内核数。

《Spark Cookbook 中文版》一1.7　在集群上使用YARN部署

1.7　在集群上使用YARN部署

1.7.1　准备工作

1.7.2　具体步骤

1.7.3　工作原理

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Spark Cookbook 中文版》一1.7 在集群上使用YARN部署

1.7 在集群上使用YARN部署

1.7.1 准备工作

1.7.2 具体步骤

1.7.3 工作原理

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Spark Cookbook 中文版》一1.7　在集群上使用YARN部署

1.7　在集群上使用YARN部署

1.7.1　准备工作

1.7.2　具体步骤

1.7.3　工作原理