备案控制台

开发者社区

开发者社区大数据文章正文

Spark 概念学习系列之Spark计算工作流（十二）

2017-11-13 1174

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

下图中描述了 Spark 的输入、运行转换、输出。

　　在运行转换中通过算子对 RDD进行转换。

　　算子是 RDD 中定义的函数，可以对 RDD 中的数据进行转换和操作。
　　

　　输入：在 Spark 程序运行中，数据从外部数据空间（例如， HDFS、 Scala 集合或数据）输入到 Spark，数据就进入了 Spark 运行时数据空间，会转化为 Spark 中的数据块，通过 BlockManager 进行管理。

运行：在 Spark 数据输入形成 RDD 后，便可以通过变换算子 f liter 等，对数据操作并将 RDD 转化为新的 RDD，通过行动（Action）算子，触发 Spark 提交作业。如果数据需要复用，可以通过 Cache 算子，将数据缓存到内存。

输出：程序运行结束数据会输出 Spark 运行时空间，存储到分布式存储中（如saveAsTextFile 输出到 HDFS）或 Scala 数据或集合中（ collect 输出到 Scala 集合，count 返回 Scala Int 型数据）。

　　　　　　　　　　　　　　　　　　图 1 Spark 算子和数据空间

　　Spark的核心数据模型是RDD，但RDD是个抽象类，具体由各子类实现，如MappedRDD、Shuff ledRDD等子类。Spark将常用的大数据操作都转化成为RDD 的子类。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5724027.html，如需转载请自行联系原作者

文章标签：

分布式计算

Spark

存储

大数据

Scala

技术小哥哥

目录

相关文章

热烈的马

|

5月前

|

存储分布式计算负载均衡

【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解（超详细）

【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解（超详细）

热烈的马

64 0 0

yuanzhengme

|

23天前

|

分布式计算监控 Hadoop

Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】（图片来源于网络）

【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】（图片来源于网络）

yuanzhengme

56 0 0

极客李华

|

4月前

|

分布式计算算法数据挖掘

Spark中的图计算库GraphX是什么？请解释其作用和常用操作。

Spark中的图计算库GraphX是什么？请解释其作用和常用操作。

极客李华

38 1 1

热烈的马

|

5月前

|

存储分布式计算大数据

【大数据技术Hadoop+Spark】Spark RDD设计、运行原理、运行流程、容错机制讲解（图文解释）

【大数据技术Hadoop+Spark】Spark RDD设计、运行原理、运行流程、容错机制讲解（图文解释）

热烈的马

74 0 0

让线程再跑一会

|

5月前

|

分布式计算数据处理 Spark

Spark【RDD编程（四）综合案例】

Spark【RDD编程（四）综合案例】

让线程再跑一会

44 0 0

青夜之衫

|

分布式计算 Spark

《Spark快速大数据分析》—— 第七章在集群上运行Spark

青夜之衫

777 0 0

技术小哥哥

|

存储分布式计算大数据

Spark 概念学习系列之Spark计算工作流（十二）

技术小哥哥

1054 0 0

技术小哥哥

|

分布式计算 Spark

Spark 概念学习系列之DAG的生成（十一）

技术小哥哥

1024 0 0

技术小哥哥

|

分布式计算 Spark

Spark 概念学习系列之Spark生态（十四）

技术小哥哥

799 0 0

技术小哥哥

|

存储缓存分布式计算

Spark RDD概念学习系列之Spark的算子的分类（十一）

技术小哥哥

2157 0 0

热门文章

最新文章

哪种词向量模型更胜一筹？Word2Vec，WordRank or FastText?

《CMOS集成电路后端设计与实战》——3.3　标准单元设计流程

linux 跟阿铭学linux tomcat

[Erlang 0044] Erlang Shell History

ArcGIS Engine开发之旅05---空间数据库

[译]IActivityToolboxService

威刚发布工业级SSD IM2P3388 可在恶劣环境下工作

想让微信公众号文章上“朋友圈热文”？看看这个

yum（针对rhel6.2）

OpenLDAP+FreeRADIUS+MySQL+RP-PPPOE 构建PPPOE服务器

【大模型】LLM与传统聊天机器人的区别是什么？

【AI 生成式】半监督学习和自监督学习的概念

【AI 生成式】生成式人工智能在内容创作和版权方面有何影响？

【AI 生成式】生成式人工智能如何在虚拟现实和游戏中使用？

【AI 生成式】描述生成式 AI 在医疗保健和药物发现中的应用

【AI 生成式】生成式人工智能未来有哪些潜在的进步？

揭秘产品经理成功的秘密：最重要的是什么？

【AI 生成式】生成式 AI 中变分自动编码器（VAE）的概念

【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强？

【AI 生成式】生成式 AI 在自然语言生成中的作用

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

相关电子书

更多

Spark优化实践

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

基于Apache* Spark* 的大规模分布式机器学习实践

相关实验场景

更多

函数计算进阶-IP查询工具开发

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考