备案控制台

开发者社区

开发者社区大数据文章正文

spark入门知识和job任务提交流程

2017-11-04 1053

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

spark是Apache开源社区的一个分布式计算引擎，基于内存计算，所以速度要快于hadoop.

下载

地址spark.apache.org

安装

复制一台单独的虚拟机，名c
修改其ip，192.168.56.200
修改其hostname为c，hostnamectl set-hostname c
修改/etc/hosts加入对本机的解析
重启网络服务 systemctl restart network
上传spark安装文件到root目录
解压spark到/usr/local下，将其名字修改为spark

本地运行模式

使用spark-submit提交job

cd /usr/local/spark
./bin/spark-submit --class org.apache.spark.examples.SparkPi ./examples/jars/spark-examples_2.11-2.1.0.jar 10000

使用spark-shell进行交互式提交

创建root下的文本文件hello.txt
./bin/spark-shell
再次连接一个terminal，用jps观察进程，会看到spark-submit进程
sc
sc.textFile("/root/hello.txt")
val lineRDD = sc.textFile("/root/hello.txt")
lineRDD.foreach(println)
观察网页端情况
val wordRDD = lineRDD.flatMap(line => line.split(" "))
wordRDD.collect
val wordCountRDD = wordRDD.map(word => (word,1))
wordCountRDD.collect
val resultRDD = wordCountRDD.reduceByKey((x,y)=>x+y)
resultRDD.collect
val orderedRDD = resultRDD.sortByKey(false)
orderedRDD.collect
orderedRDD.saveAsTextFile("/root/result")
观察结果
简便写法：sc.textFile("/root/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect

使用local模式访问hdfs数据

start-dfs.sh
spark-shell执行：sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect （可以把ip换成master，修改/etc/hosts）
sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().saveAsTextFile("hdfs://192.168.56.100:9000/output1")

spark standalone模式

在master和所有slave上解压spark
修改master上conf/slaves文件，加入slave
修改conf/spark-env.sh，export SPARK_MASTER_HOST=master
复制spark-env.sh到每一台slave
cd /usr/local/spark
./sbin/start-all.sh
在c上执行：./bin/spark-shell --master spark://192.168.56.100:7077 (也可以使用配置文件)
观察http://master:8080

spark on yarn模式

本文转自 ChinaUnicom110 51CTO博客，原文链接:http://blog.51cto.com/xingyue2011/1968175

文章标签：

分布式计算

Apache

Spark

关键词：

apache spark入门

apache spark任务

apache spark流程

apache spark job

技术小牛人

目录

相关文章

诸葛子房

|

5月前

|

分布式计算监控 Spark

Spark 任务运行时日志分析

Spark 任务运行时日志分析

诸葛子房

53 0 0

阿甘兄

|

6月前

|

SQL 分布式计算调度

Spark入门（一篇就够了）（三）

Spark入门（一篇就够了）（三）

阿甘兄

132 0 0

BookSea

|

7月前

|

SQL 分布式计算 Java

Spark入门指南：从基础概念到实践应用全解析

在这个数据驱动的时代，信息的处理和分析变得越来越重要。而在众多的大数据处理框架中， Apache Spark 以其独特的优势脱颖而出。

BookSea

67 0 0

赵广陆

|

8月前

|

存储分布式计算网络协议

大数据Spark Streaming入门

大数据Spark Streaming入门

赵广陆

80 1 1

程序员三木

|

13天前

|

分布式计算大数据数据处理

[AIGC大数据基础] Spark 入门

[AIGC大数据基础] Spark 入门

程序员三木

139 0 0

Maynor

|

5月前

|

分布式计算 Java 数据库连接

回答粉丝疑问:Spark为什么调优需要降低过多小任务，降低单条记录的资源开销?

回答粉丝疑问:Spark为什么调优需要降低过多小任务，降低单条记录的资源开销?

Maynor

38 1 1

阿甘兄

|

6月前

|

存储缓存分布式计算

Spark入门（一篇就够了）（一）

Spark入门（一篇就够了）（一）

阿甘兄

139 0 1

孙玉洁-47170

|

2月前

|

分布式计算 Spark 索引

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark学习---day07、Spark内核（源码提交流程、任务执行）

孙玉洁-47170

42 2 2

孙玉洁-47170

|

2月前

|

分布式计算监控 Java

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习---day06、Spark内核（源码提交流程、任务执行）

孙玉洁-47170

44 2 2

阿甘兄

|

6月前

|

分布式计算 Hadoop 大数据

178 Spark入门

178 Spark入门

阿甘兄

30 0 0

热门文章

最新文章

【Flink】Flink跟Spark Streaming的区别？

大数据技术与Python：结合Spark和Hadoop进行分布式计算

[AIGC大数据基础] Spark 入门

Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

地铁译：Spark for python developers --- 搭建Spark虚拟环境3

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

XXL-JOB零改造迁移

3分钟创建Serverless Job 定时获取新闻热搜

下一篇

将Stable Diffusion模型文件转存到FC环境的NAS