备案控制台

开发者社区

开发者社区大数据文章正文

《Spark大数据分析：核心概念、技术及实践》导读

2017-05-19 1950

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Contents 目　　录

译者序

前言

致谢

第1章　大数据技术一览

1.1　Hadoop

1.1.1　HDFS

1.1.2　MapReduce

1.1.3　Hive

1.2　数据序列化

1.2.1　Avro

1.2.2　Thrift

1.2.3　Protocol Buffers

1.2.4　SequenceFile

1.3　列存储

1.3.1　RCFile

1.3.2　ORC

1.3.3　Parquet

1.4　消息系统

1.4.1　Kafka

1.4.2　ZeroMQ

1.5　NoSQL

1.5.1　Cassandra

1.5.2　HBase

1.6　分布式SQL查询引擎

1.6.1　Impala

1.6.2　Presto

1.6.3　Apache Drill

1.7　总结15

第2章　 Scala编程

2.1　函数式编程

2.1.1　函数

2.1.2　不可变数据结构

2.1.3　一切皆表达式

2.2　Scala基础

2.2.1　起步

2.2.2　基础类型

2.2.3　变量

2.2.4　函数

2.2.5　类

2.2.6　单例

2.2.7　样本类

2.2.8　模式匹配

2.2.9　操作符

2.2.10　特质

2.2.11　元组

2.2.12　Option类型

2.2.13　集合

2.3　一个单独的Scala应用程序

2.4　总结

第3章　 Spark Core

3.1　概述

3.1.1　主要特点

3.1.2　理想的应用程序

3.2　总体架构

3.2.1　worker

3.2.2　集群管理员

3.2.3　驱动程序

3.2.4　执行者

3.2.5　任务

3.3　应用运行

3.3.1　术语

3.3.2　应用运行过程

3.4　数据源

3.5　API

3.5.1　SparkContext

3.5.2　RDD

3.5.3　创建RDD

3.5.4　RDD操作

3.5.5　保存RDD

3.6　惰性操作

3.7　缓存

3.7.1　RDD的缓存方法

3.7.2　RDD缓存是可容错的

3.7.3　缓存内存管理

3.8　Spark作业

3.9　共享变量

3.9.1　广播变量

3.9.2　累加器

3.10　总结

文章标签：

分布式计算

Spark

缓存

Scala

消息中间件

SQL

NoSQL

Kafka

Apache

HIVE

关键词：

apache spark大数据分析

apache spark技术

apache spark实践

apache spark核心概念

apache spark大数据分析核心概念技术实践

华章计算机

目录

相关文章

桃李春风一杯酒

|

6天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

21 1 1

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

70 0 0

热烈的马

|

4月前

|

消息中间件分布式计算大数据

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

热烈的马

66 0 0

热烈的马

|

4月前

|

SQL 分布式计算大数据

【大数据技术Spark】DStream编程操作讲解实战（图文解释附源码）

【大数据技术Spark】DStream编程操作讲解实战（图文解释附源码）

热烈的马

36 0 0

热烈的马

|

4月前

|

Java Shell 分布式数据库

【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解（附源码超详细）

【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解（附源码超详细）

热烈的马

82 0 0

热烈的马

|

4月前

|

SQL 存储大数据

【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示（附SQL语句）

【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示（附SQL语句）

热烈的马

73 0 0

热烈的马

|

4月前

|

SQL 分布式计算数据库

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

热烈的马

85 0 0

热烈的马

|

4月前

|

SQL 分布式计算大数据

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释）

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释）

热烈的马

53 0 0

热烈的马

|

4月前

|

分布式计算大数据 Apache

【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解（图文解释超详细）

【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解（图文解释超详细）

热烈的马

62 0 0

热烈的马

|

4月前

|

分布式计算大数据 Scala

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码）

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码）

热烈的马

85 1 1

热门文章

最新文章

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

大数据技术与Python：结合Spark和Hadoop进行分布式计算

bigdata-36-Spark转换算子与动作算子

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

sparkRDD 算子的创建和使用

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

Spark RDD类源码阅读

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark环境搭建与使用

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

Spark学习--day05、累加器

Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存

Spark学习---day03、Spark核心编程（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（二）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

倚天大数据电商数据分析快速实践

利用大模型大规模分发技术，实现AIGC在线应用秒级弹性

基于数据湖架构的网站访问行为分析

容器DevSecOps全链路体验

高性能特性体验：ePQ 的详解与实战

【企业数据中台交付】数据回刷实验

下一篇

阿里云oss简介和使用流程