备案控制台

开发者社区

开发者社区开发与运维文章正文

《循序渐进学Spark 》导读

2017-05-19 1984

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

目　　录

前　言

第1章　 Spark架构与集群环境

1.1　Spark概述与架构

1.1.1　Spark概述

1.1.2　Spark生态

1.1.3　Spark架构

1.2　在Linux集群上部署Spark

1.2.1　安装OpenJDK

1.2.2　安装Scala

1.2.3　配置SSH免密码登录

1.2.4　Hadoop的安装配置

1.2.5　Spark的安装部署

1.2.6　Hadoop与Spark的集群复制

1.3　Spark 集群试运行

1.4　Intellij IDEA的安装与配置

1.4.1　Intellij的安装

1.4.2　Intellij的配置

1.5　Eclipse IDE的安装与配置

1.6　使用Spark Shell开发运行Spark程序

1.7　本章小结

第2章　 Spark 编程模型

2.1　RDD弹性分布式数据集

2.1.1　RDD简介

2.1.2　深入理解RDD

2.1.3　RDD特性总结

2.2　Spark程序模型

2.3　Spark算子

2.3.1　算子简介

2.3.2　Value型Transmation算子

2.3.3　Key-Value型Transmation算子

2.3.4　Action算子

2.4　本章小结

第3章　 Spark机制原理

3.1　Spark应用执行机制分析

3.1.1　Spark应用的基本概念

3.1.2　Spark应用执行机制概要

3.1.3　应用提交与执行

3.2　Spark调度机制

3.2.1　Application的调度

3.2.2　job的调度

3.2.3　stage（调度阶段）和TasksetManager的调度

3.2.4　task的调度

3.3　Spark存储与I/O

3.3.1　Spark存储系统概览

3.3.2　BlockManager中的通信

3.4　Spark通信机制

3.4.1　分布式通信方式

3.4.2　通信框架AKKA

3.4.3　Client、Master和Worker之间的通信

3.5　容错机制及依赖

3.5.1　Lineage（血统）机制

3.5.2　Checkpoint（检查点）机制

3.6　Shuffle机制

3.6.1　什么是Shuffle

3.6.2　Shuffle历史及细节

3.7　本章小结

文章标签：

分布式计算

Spark

调度

Android开发

开发工具

网络安全

数据安全/隐私保护

Hadoop

IDE

Scala

关键词：

apache spark循序渐进导读

apache spark循序渐进

华章计算机

目录

相关文章

华章计算机

|

存储分布式计算资源调度

《循序渐进学Spark 》Spark 编程模型

华章计算机

3964 0 0

华章计算机

|

存储分布式计算大数据

《循序渐进学Spark 》Spark 编程模型

华章计算机

2243 0 0

华章计算机

|

SQL 存储分布式计算

《循序渐进学Spark》一导读

华章计算机

1992 0 0

华章计算机

|

分布式计算 Java 调度

《循序渐进学Spark》一第3章

华章计算机

1516 0 0

华章计算机

|

存储分布式计算大数据

《循序渐进学Spark》一第2章

华章计算机

1594 0 0

华章计算机

|

分布式计算 Linux Spark

《循序渐进学Spark》一1.7　本章小结

华章计算机

1099 0 0

华章计算机

|

存储 SQL 分布式计算

《循序渐进学Spark》一第1章

华章计算机

2458 0 0

疯狂的猿

|

4月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

162 0 0

桃李春风一杯酒

|

25天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

55 1 1

程序猿～厾罗

|

4月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

73 0 0

热门文章

最新文章

【Flink】Flink跟Spark Streaming的区别？

大数据技术与Python：结合Spark和Hadoop进行分布式计算

[AIGC大数据基础] Spark 入门

Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

地铁译：Spark for python developers --- 搭建Spark虚拟环境3

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

将Stable Diffusion模型文件转存到FC环境的NAS