备案控制台

开发者社区

开发者社区华章出版社文章正文

《深入理解Spark:核心思想与源码分析》——2.5节小结

2017-05-02 1429

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第2章，第2.5节小结，作者耿嘉安，更多章节内容可以访问云栖社区“华章社区”公众号查看

2.5　小结
每项技术的诞生都会由某种社会需求所驱动，Spark正是在实时计算的大量需求下诞生的。Spark借助其优秀的处理能力、可用性高、丰富的数据源支持等特点，在当前大数据领域变得火热，参与的开发者也越来越多。Spark经过几年的迭代发展，如今已经提供了丰富的功能。笔者相信，Spark在未来必将产生更耀眼的火花。

文章标签：

大数据

分布式计算

Spark

关键词：

apache spark源码分析

apache spark核心思想源码分析

apache spark核心思想

apache spark核心思想源码分析小结

华章计算机

目录

相关文章

明惠

|

Apache 分布式计算 Spark

Apache Spark Delta Lake 事务日志实现源码分析

Apache Spark Delta Lake 事务日志实现源码分析我们已经在这篇文章详细介绍了 Apache Spark Delta Lake 的事务日志是什么、主要用途以及如何工作的。那篇文章已经可以很好地给大家介绍 Delta Lake 的内部工作原理，原子性保证，本文为了学习的目的，带领大家从源码级别来看看 Delta Lake 事务日志的实现。

明惠

1966 0 0

王知无

|

分布式计算 Java Shell

Spark源码分析之Spark Shell（上）

终于开始看Spark源码了，先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东，其实里面还是有很多知识点的。另外，从启动脚本入手，是寻找代码入口最简单的方法，很多开源框架，其实都可以通过这种方式来寻找源码入口。

王知无

902 0 0

thinktothings

|

分布式计算 Spark

Spark2.4.0源码分析之WorldCount 事件循环处理器(三)

理解DAG事件循环处理器处理事件流程

thinktothings

1022 0 0

thinktothings

|

分布式计算 Spark Hadoop

Spark MapOutputTracker源码分析

## 技能标签 - Spark ShuffleMapTask处理完成后，把MapStatus数据(BlockManagerId,[compressSize])发送给MapOutputTrackerMaster.

thinktothings

1664 0 0

thinktothings

|

分布式计算搜索推荐 Spark

Spark 源码分析之ShuffleMapTask内存数据Spill和合并

- Spark ShuffleMapTask 内存中的数据Spill到临时文件 - 临时文件中的数据是如何定入的，如何按partition升序排序，再按Key升序排序写入(key,value)数据 - 每个临时文件，都存入对应的每个分区有多少个(key,value)对，有多少次流提交数组，数组中...

thinktothings

1781 0 0

thinktothings

|

分布式计算 Scala Spark

Spark源码分析之ResultTask处理

ResultTask 执行当前分区的计算，首先从ShuffleMapTask拿到当前分区的数据，会从所有的ShuffleMapTask都拿一遍当前的分区数据，然后调用reduceByKey自定义的函数进行计算，最后合并所有的ResultTask输出结果，进行输出

thinktothings

2278 0 1

thinktothings

|

分布式计算 Shell Scala

Spark源码分析之ShuffleMapTask处理

Spark源码分析之ShuffleMapTask处理,在map端对数据的处理源码分析

thinktothings

1671 0 0

thinktothings

|

分布式计算 Apache Spark

Spark Master启动源码分析

Spark Master启动源码分析更多资源 github: https://github.com/opensourceteams/spark-scala-maven csdn(汇总视频在线看): https://blog.

thinktothings

947 0 0

thinktothings

|

分布式计算 Spark

Spark Worker启动源码分析

Spark Worker启动源码分析更多资源 github: https://github.com/opensourceteams/spark-scala-maven csdn(汇总视频在线看): https://blog.

thinktothings

1105 0 0

thinktothings

|

分布式计算 Spark

Spark Executor启动源码分析

Spark CoarseGrainedExecutorBackend启动源码分析更多资源 github: https://github.

thinktothings

1376 0 0

华章出版社

热门文章

最新文章

【Flink】Flink跟Spark Streaming的区别？

大数据技术与Python：结合Spark和Hadoop进行分布式计算

[AIGC大数据基础] Spark 入门

Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

地铁译：Spark for python developers --- 搭建Spark虚拟环境3

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）