《循序渐进学Spark 》导读

简介:

目  录
前 言
第1章  Spark架构与集群环境    
1.1 Spark概述与架构    
1.1.1 Spark概述    
1.1.2 Spark生态    
1.1.3 Spark架构    
1.2 在Linux集群上部署Spark    
1.2.1 安装OpenJDK    
1.2.2 安装Scala    
1.2.3 配置SSH免密码登录    
1.2.4 Hadoop的安装配置    
1.2.5 Spark的安装部署    
1.2.6 Hadoop与Spark的集群复制    
1.3 Spark 集群试运行    
1.4 Intellij IDEA的安装与配置    
1.4.1 Intellij的安装    
1.4.2 Intellij的配置    
1.5 Eclipse IDE的安装与配置   
1.6 使用Spark Shell开发运行Spark程序   
1.7 本章小结    
第2章  Spark 编程模型    
2.1 RDD弹性分布式数据集    
2.1.1 RDD简介    
2.1.2 深入理解RDD    
2.1.3 RDD特性总结    
2.2 Spark程序模型    
2.3 Spark算子    
2.3.1 算子简介    
2.3.2 Value型Transmation算子    
2.3.3 Key-Value型Transmation算子   
2.3.4 Action算子    
2.4 本章小结    
第3章  Spark机制原理    
3.1 Spark应用执行机制分析    
3.1.1 Spark应用的基本概念
3.1.2 Spark应用执行机制概要    
3.1.3 应用提交与执行   
3.2 Spark调度机制    
3.2.1 Application的调度    
3.2.2 job的调度    
3.2.3 stage(调度阶段)和TasksetManager的调度    
3.2.4 task的调度   
3.3 Spark存储与I/O    
3.3.1 Spark存储系统概览    
3.3.2 BlockManager中的通信   
3.4 Spark通信机制    
3.4.1 分布式通信方式    
3.4.2 通信框架AKKA   
3.4.3 Client、Master和Worker之间的通信    
3.5 容错机制及依赖    
3.5.1 Lineage(血统)机制   
3.5.2 Checkpoint(检查点)机制    
3.6 Shuffle机制    
3.6.1 什么是Shuffle    
3.6.2 Shuffle历史及细节    
3.7 本章小结    
相关文章
|
存储 分布式计算 大数据
|
4月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
162 0
|
25天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
4月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。