Spark 0.9.1和Shark 0.9.1分布式安装指南

简介: Spark 0.9.1和Shark 0.9.1分布式安装指南.pdf 目录 目录 1 1. 约定 1 2. 安装Scala 1 2.

img_e25d4fb2f8de1caf41a735ec53088516.pngSpark 0.9.1和Shark 0.9.1分布式安装指南.pdf

目录

目录 1

1. 约定 1

2. 安装Scala 1

2.1. 下载 2

2.2. 安装 2

2.3. 设置环境变量 2

3. 安装Spark 2

3.1. 部署 2

3.2. 下载 3

3.3. 安装 3

3.4. 配置 3

3.4.1. 修改conf/spark-env.sh 3

3.4.2. 修改conf/slaves 3

4. 启动Spark 3

5. 安装Shark 4

5.1. 下载 4

5.2. 安装 4

5.3. 配置 4

5.3.1. 修改shark-env.sh 4

6. 启动Shark 4

7. 执行Shark命令 5

8. 常见错误 5

9. 相关文档 6

 

1. 约定

本文约定Hadoop 2.4.0安装在/data/hadoop/current,而Spark 0.9.1被安装在/data/hadoop/spark,其中/data/hadoop/spark为指向/data/hadoop/spark

Spark官网为:http://spark.apache.org/Shark官网为:http://shark.cs.berkeley.edu/

2. 安装Scala

联邦理工学院洛桑(EPFL)的Martin Odersky2001年基于Funnel的工作开始设计Scala

Scala是一种多范式的编程语言,设计初衷是要集成纯面向对象编程和函数式编程的各种特性。运行在Java虚拟机JVM之上,兼容现有的Java程序,并可调用Java类库。Scala包含编译器和类库,以BSD许可证发布。

2.1. 下载

Spark使用Scala开发的,在安装Spark之前,先在各个节上将Scala安装好。Scala的官网为:http://www.scala-lang.org/,下载网址为:http://www.scala-lang.org/download/,本文下载的是二进制安装包scala-2.11.0.tgz。

2.2. 安装

本文以root用户(实则也可以非root用户,建议事先规划好)将Scala安装在/data/scala,其中/data/scala是指向/data/scala-2.11.0的软链接。

安装方法非常简单,将scala-2.11.0.tgz上传到/data目录,然后在/data/目录下对scala-2.11.0.tgz进行解压。

接着,建立软链接:ln -s /data/scala-2.11.0 /data/scala。

2.3. 设置环境变量

Scala被安装完成后,需要将它添加到PATH环境变量中,可以直接修改/etc/profile文件,加入以下内容即可:

export SCALA_HOME=/data/scala

export PATH=$SCALA_HOME/bin:$PATH

3. 安装Spark

Spark的安装以非root用户进行,本文以hadoop用户安装它。

3.1. 部署

本文的部署如下表格所示,主Master部署在172.25.39.166节点上:

Master

Master

Slaves

172.25.39.166

172.25.40.171

10.12.154.77

10.12.154.78

10.12.154.79

10.12.154.80

 

要求每个Slaves上都安装有Hive,否则会报“readObject can't find class org.apache.hadoop.hive.conf.HiveConf”错误。

3.2. 下载

本文下载的二进制安装包,推荐这种方式,否则编译还得折腾。下载网址为:http://spark.apache.org/downloads.html,本文下载的是spark-0.9.1-bin-hadoop2.tgz,这个可以直接跑在YARN上。

3.3. 安装

1) 将spark-0.9.1-bin-hadoop2.tgz上传到目录/data/hadoop

2) 解压:tar xzf spark-0.9.1-bin-hadoop2.tgz

3) 建立软链接:ln -s spark-0.9.1-bin-hadoop2 spark

3.4. 配置

3.4.1. 修改conf/spark-env.sh

可以spark-env.sh.template复制一份,然后增加以下内容:

export SCALA_HOME=/data/scala

export JAVA_HOME=/data/jdk

export SPARK_MASTER_IP=172.25.39.166

3.4.2. 修改conf/slaves

这个和配置HDFSslaves类似,一行一个slaveIP

10.12.154.77

10.12.154.78

10.12.154.79

10.12.154.80

4. 启动Spark

进入到Sparksbin目录,执行start-all.sh即可将Spark运行起来。使用浏览器打开“http://172.25.39.166:8080/”,即可看到Spark运行状况。“8080”是Sparkhttp端口。

 

如果要以Server方式运行Spark,可以这样:

$./bin/shark --service sharkserver 

 

客户端可以这样去连接它:

$./bin/shark -h  -p 

5. 安装Shark

使用Shark,需要先安装好Hive,并且得在所有Spark slaves机上都安装Hive,同时也得在所有Spark slaves机上安装Shark。有关Hive的安装,请参见《Hive 0.12.0安装指南》。

5.1. 下载

Shark官网:http://shark.cs.berkeley.edu/

下载网址:https://github.com/amplab/shark/releases

基于Yarn0.9.1版本下载链接:

https://s3.amazonaws.com/spark-related-packages/shark-0.9.1-bin-hadoop2.tgz

下载后的二进制安装包名为shark-0.9.1-bin-hadoop2.tgz。

5.2. 安装

本文将shark安装到/data/hadoop/shark,步骤为:

1) 将shark-0.9.1-bin-hadoop2.tgz上传到主Master/data/hadoop目录

2) 解压:tar xzf shark-0.9.1-bin-hadoop2.tgz

3) 建立链连接:ln -s shark-0.9.1-bin-hadoop2 shark

5.3. 配置

5.3.1. 修改shark-env.sh

shark-env.sh.template复制生成一份shark-env.sh,然后增加以下内容:

export HADOOP_HOME=/data/hadoop/current

export HIVE_HOME=/data/hadoop/hive

export HIVE_CONF_DIR=$HIVE_HOME/conf

export SPARK_HOME=/data/hadoop/spark

export MASTER=spark://172.25.39.166:7077

6. 启动Shark

进入到Sharkbin目录,执行shark-withinfoshark-withdebugshark也可以的),进入Shark命令行操作界面,如果觉得shark-withinfo屏幕显示的信息太多,可以使用shark。另外,SharkHive一样,也有个beeline

7. 执行Shark命令

SharkHive是兼容的,可以像Hive一样操作。

请参照:https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster进行:

CREATE TABLE src(key INT, value STRING);

LOAD DATA LOCAL INPATH '${env:HIVE_HOME}/examples/files/kv1.txt' INTO TABLE src;

SELECT COUNT(1) FROM src;

CREATE TABLE src_cached AS SELECT * FROM SRC;

SELECT COUNT(1) FROM src_cached;

8. 常见错误

1) readObject can't find class org.apache.hadoop.hive.conf.HiveConf

运行“select count(1) from src;”时,报如下所示的错误,但show databasesshow tables不会报错。建议使用shark-withinfo,以便看到更详细的信息。类org.apache.hadoop.hive.conf.HiveConf在包hive-common-0.12.0.jar中,估计在CLASSPATH中找不到hive-common-0.12.0.jar

org.apache.spark.SparkException: Job aborted: Task 1.0:1 failed 4 times (most recent failure: Exception failure: java.lang.RuntimeException: readObject can't find class org.apache.hadoop.hive.conf.HiveConf)

        at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$abortStage$1.apply(DAGScheduler.scala:1028)

        at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$abortStage$1.apply(DAGScheduler.scala:1026)

        at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)

        at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)

        at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$abortStage(DAGScheduler.scala:1026)

        at org.apache.spark.scheduler.DAGScheduler$$anonfun$processEvent$10.apply(DAGScheduler.scala:619)

        at org.apache.spark.scheduler.DAGScheduler$$anonfun$processEvent$10.apply(DAGScheduler.scala:619)

        at scala.Option.foreach(Option.scala:236)

        at org.apache.spark.scheduler.DAGScheduler.processEvent(DAGScheduler.scala:619)

        at org.apache.spark.scheduler.DAGScheduler$$anonfun$start$1$$anon$2$$anonfun$receive$1.applyOrElse(DAGScheduler.scala:207)

        at akka.actor.ActorCell.receiveMessage(ActorCell.scala:498)

        at akka.actor.ActorCell.invoke(ActorCell.scala:456)

        at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:237)

        at akka.dispatch.Mailbox.run(Mailbox.scala:219)

        at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:386)

        at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)

        at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)

        at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)

        at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)

FAILED: Execution Error, return code -101 from shark.execution.SparkTask

 

当使用shark-withinfo替代shark运行后,多了些信息:在DEVNET-154-77机器上找不到“org.apache.hadoop.hive.conf.HiveConf”,那么也就是需要在DEVNET-154-77机器上有hive-common-0.12.0.jar文件存在,并且可以找到它

14/04/24 05:09:00 WARN scheduler.TaskSetManager: Lost TID 1 (task 1.0:1)

14/04/24 05:09:00 INFO scheduler.TaskSetManager: Loss was due to java.lang.RuntimeException: readObject can't find class org.apache.hadoop.hive.conf.HiveConf [duplicate 1]

14/04/24 05:09:00 INFO scheduler.TaskSetManager: Starting task 1.0:1 as TID 3 on executor 2: DEVNET-154-77 (PROCESS_LOCAL)

14/04/24 05:09:00 INFO scheduler.TaskSetManager: Serialized task 1.0:1 as 4597 bytes in 0 ms

 

网上找了很多办法,都不太好,最后摸索,在Spark的环境变量文件spark-env.sh中增加对环境变量CLASSPATH的设置,结果问题解决了(在此之前,试过在/etc/profile增加,没生效),另外保证每个Spark slaves上都有安装Shark,并且安装目录保持一致:

export CLASSPATH=$CLASSPATH:/data/hadoop/hive/lib

 

修改后,注意需要重启Spark,再运行Shark

9. 相关文档

HBase-0.98.0分布式安装指南》

Hive 0.12.0安装指南》

ZooKeeper-3.4.6分布式安装指南》

Hadoop 2.3.0源码反向工程》

《在Linux上编译Hadoop-2.4.0

Accumulo-1.5.1安装指南》

Drill 1.0.0安装指南》

Shark 0.9.1安装指南》

 

更多,敬请关注技术博客:http://aquester.cublog.cn

 

相关文章
|
1月前
|
分布式计算 Hadoop 大数据
安装Spark
安装Spark
32 0
|
6天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
4月前
|
消息中间件 分布式计算 大数据
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
66 0
|
1月前
|
分布式计算 Spark
Spark【Spark学习大纲】简介+生态+RDD+安装+使用(xmind分享)
【2月更文挑战第14天】Spark【Spark学习大纲】简介+生态+RDD+安装+使用(xmind分享)
30 1
|
2月前
|
消息中间件 RocketMQ Docker
分布式事物【RocketMQ事务消息、Docker安装 RocketMQ、实现订单微服务、订单微服务业务层实现】(八)-全面详解(学习总结---从入门到深化)
分布式事物【RocketMQ事务消息、Docker安装 RocketMQ、实现订单微服务、订单微服务业务层实现】(八)-全面详解(学习总结---从入门到深化)
53 0
|
3月前
|
人工智能 弹性计算 PyTorch
【Hello AI】安装和使用AIACC-ACSpeed-分布式训练场景的通信优化库
AIACC-ACSpeed专注于分布式训练场景的通信优化库,通过模块化的解耦优化设计,实现了分布式训练在兼容性、适用性和性能加速等方面的升级。本文为您介绍安装和使用AIACC-ACSpeed v1.1.0的方法。
|
3月前
|
分布式计算 大数据 数据处理
Spark RDD(弹性分布式数据集)
Spark RDD(弹性分布式数据集)
|
3月前
|
消息中间件 RocketMQ Docker
分布式事物【RocketMQ事务消息、Docker安装 RocketMQ、实现订单微服务、订单微服务业务层实现】(八)-全面详解(学习总结---从入门到深化)(下)
分布式事物【RocketMQ事务消息、Docker安装 RocketMQ、实现订单微服务、订单微服务业务层实现】(八)-全面详解(学习总结---从入门到深化)
30 0
|
消息中间件 RocketMQ Docker
分布式事物【RocketMQ事务消息、Docker安装 RocketMQ、实现订单微服务、订单微服务业务层实现】(八)-全面详解(学习总结---从入门到深化)(上)
分布式事物【RocketMQ事务消息、Docker安装 RocketMQ、实现订单微服务、订单微服务业务层实现】(八)-全面详解(学习总结---从入门到深化)
66 0
|
4月前
|
编译器 定位技术 开发工具
分布式版本控制系统Git的下载、安装与使用其复制GitHub项目代码的方法
分布式版本控制系统Git的下载、安装与使用其复制GitHub项目代码的方法

热门文章

最新文章