《Spark与Hadoop大数据分析》——3.1 启动 Spark 守护进程

简介: 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.1节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.1 启动 Spark 守护进程

如果你计划使用 Standalone 的集群管理器,则需要启动 Spark 的主机(master)和工作机(worker)的守护进程(daemon),它们是 Spark 架构的核心组件。守护进程的启动/停止在不同的发行版里略有差异。Hadoop 发行版(如 Cloudera、Hortonworks 和 MapR)会把 Spark 作为服务,并把 YARN 作为默认的资源管理器。这意味着在默认情况下所有 Spark 应用程序都会在 YARN 框架上运行。但是,要使用 Spark 的 Standalone 资源管理器,我们就需要启动 Spark 的主机和工作机角色。如果你计划使用 YARN 资源管理器,就不需要启动这些守护进程。请根据你使用的发行版类型,按照以下步骤进行操作。所有这些发行版的下载和安装说明可以参阅第 2 章中的内容。

3.1.1 使用CDH

Cloudera的Hadoop发行版(Cloudera Distribution for Hadoop,CDH)是一个开源的发行版,其中包括Hadoop、Spark 和大数据分析所需的许多其他项目。Cloudera Manager 是用来安装和管理CDH平台的。如果你计划使用YARN资源管理器,请在Cloudera Manager中启动Spark服务。要为 Spark 的Standalone 资源管理器启动 Spark 守护进程,请采用以下过程:

(1)CDH 平台上的 Spark 是配置成和 YARN一起使用的。此外,Spark 2.0目前在 CDH上还不可用。所以,要下载最新的预制版 Spark 2.0 Hadoop包,请按照第2章中所解释的步骤进行。如果你想使用 Spark 1.6 版本,请运行 /usr/lib/spark/start-all.sh命令。

(2)请使用以下命令启动服务。

image

(3)在 http://quickstart.cloudera:8080/ 可以查看 Spark 的用户界面。

3.1.2 使用 HDP、MapR 和 Spark 预制软件包

Hortonworks数据平台(Hortonworks Data Platform,HDP)和 MapR 融合数据平台(MapR Converged Data Platform)的发行版中也包括Hadoop、Spark 和大数据分析所需的许多其他项目。HDP 使用 Apache Ambari 部署和管理集群,而 MapR 使用MapR控制系统(MapR Control System,MCS)。Spark 的预制包里没有用于管理 Spark 的特定管理器组件。如果你计划使用 YARN 资源管理器,请在 Ambari 或 MCS 中启动 Spark 服务。要启动 Spark 守护程序以便使用 Spark 的 Standalone 资源管理器,请采用以下过程。

(1)用以下命令启动服务:

image

对于多节点集群,请用以下命令在所有计算机上启动 Spark 的工作机角色:

image

另一种选项是在 /conf/slaves 文件中提供工作机的主机名称列表,然后使用 ./start-all.sh 命令自动在所有计算机上启动工作机角色。

(2)请检查位于logs目录中的日志。可以在 http://masterhostname:8080 上查看主机的Web界面。如果此端口已由另一个服务占用,则会使用下一个可用端口。例如,在 HDP 中,端口 8080 由 Ambari 获取,因此Standalone的主机将绑定到 8081。要查找正确的端口号,请检查日志。

image

相关文章
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
159 0
|
15天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
3月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
|
2天前
|
分布式计算 大数据 数据处理
[AIGC大数据基础] Spark 入门
[AIGC大数据基础] Spark 入门
|
2月前
|
分布式计算 大数据 Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
122 0
|
3月前
|
分布式计算 监控 大数据
Spark RDD分区和数据分布:优化大数据处理
Spark RDD分区和数据分布:优化大数据处理
|
3月前
|
SQL 分布式计算 Hadoop
Spark与Hadoop的关系和区别
Spark与Hadoop的关系和区别
|
3月前
|
分布式计算 Hadoop 数据处理
Spark与Hadoop的区别是什么?请举例说明。
Spark与Hadoop的区别是什么?请举例说明。
56 0
|
分布式计算 Spark Java
Spark 启动时,提示 JAVA_HOME not set,已解决。。。
在spark 根目录使用 sbin/start-all.sh 时,console提示 slave JAVA_HOME not set, 找了半天,最后的解决方法如下: 在sbin目录下的spark-config.sh 中添加对应的jdk 路径,然后使用scp -r 命令复制到各个worker节点,即可。
1767 0

热门文章

最新文章