备案控制台

开发者社区

开发者社区华章出版社文章正文

《Spark与Hadoop大数据分析》一一导读

2017-07-03 2362

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Preface　前　　言

本书讲解了Apache Spark和Hadoop的基础知识，以及如何通过简单的方式将它们与最常用的工具和技术集成在一起。所有Spark组件（Spark Core、Spark SQL、DataFrame、Dataset、Conventional Streaming、Structured Streaming、MLlib、GraphX和Hadoop核心组件）、HDFS、MapReduce和Yarn 都在 Spark + Hadoop 集群的实现示例中进行了深入的探讨。
大数据分析行业正在从 MapReduce 转向Spark。因此，本书深入讨论了 Spark 相比 MapReduce 的优势，从而揭示出它在内存计算速度方面的好处。我们还会讲解如何运用 DataFrame API、Data Sources API，以及新的 Dataset API 来构建大数据分析应用程序。书中还讲解了如何使用 Spark Streaming 配合 Apache Kafka 和 HBase 进行实时数据分析，以帮助构建流式应用程序（streaming application）。新的结构化流（Structured Streaming）概念会通过物联网（Internet of Things，IOT）用例来解释。在本书中，机器学习技术会使用 MLLib、机器学习流水线和 SparkR 来实现；图分析则会利用Spark的GraphX 和GraphFrames 组件包来进行。
本书还介绍了基于Web的笔记本（如Jupyter和Apache Zeppelin）和数据流工具Apache NiFi，它们用于分析和可视化数据，以及利用 Livy 服务器把Spark作为一个服务提供给用户。

目录

第1章　从宏观视角看大数据分析

1.1　大数据分析以及 Hadoop 和 Spark 在其中承担的角色
 1.2　大数据科学以及Hadoop和Spark在其中承担的角色
 1.3　工具和技术
 1.4　实际环境中的用例
 1.5　小结

第2章　Apache Hadoop和Apache Spark入门

2.1　Apache Hadoop概述
 2.2　Apache Spark概述
 2.3　为何把 Hadoop 和 Spark 结合使用
 2.4　安装 Hadoop 和 Spark 集群
 2.5　小结

第3章　深入剖析Apache Spark

3.1　启动 Spark 守护进程
 3.2　学习Spark的核心概念
 3.3　Spark 程序的生命周期
 3.4　Spark 应用程序
 3.5　持久化与缓存
 3.6　Spark 资源管理器：Standalone、YARN和Mesos
3.7　小结

文章标签：

分布式计算

Apache

物联网

API

大数据

关键词：

hadoop spark

apache spark Hadoop

apache spark大数据分析

hadoop大数据分析

apache spark Hadoop大数据导读

华章计算机

目录

相关文章

岁岁种桃花儿

|

4月前

|

SQL 分布式计算 Hadoop

干翻Hadoop系列文章【02】：Hadoop、Hive、Spark的区别和联系

干翻Hadoop系列文章【02】：Hadoop、Hive、Spark的区别和联系

岁岁种桃花儿

62 0 0

桃李春风一杯酒

|

13天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

33 1 1

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

71 0 0

热烈的马

|

4月前

|

消息中间件分布式计算大数据

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

热烈的马

72 0 0

热烈的马

|

4月前

|

SQL 分布式计算大数据

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释）

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释）

热烈的马

55 0 0

热烈的马

|

4月前

|

分布式计算大数据 Scala

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码）

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码）

热烈的马

92 1 1

桃李春风一杯酒

|

3月前

|

分布式计算 Hadoop 大数据

什么是 Hadoop 和 Spark？在 Python 中如何使用它们进行大数据处理？

【1月更文挑战第11天】

桃李春风一杯酒

87 0 0

晓之以理的喵~~

|

3月前

|

SQL 分布式计算 Hadoop

Spark与Hadoop的关系和区别

Spark与Hadoop的关系和区别

晓之以理的喵~~

176 0 0

极客李华

|

3月前

|

分布式计算 Hadoop 数据处理

Spark与Hadoop的区别是什么？请举例说明。

Spark与Hadoop的区别是什么？请举例说明。

极客李华

55 0 0

wux_labs

|

4月前

|

分布式计算资源调度搜索推荐

《PySpark大数据分析实战》-02.了解Hadoop

大家好！今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容：了解Hadoop。

wux_labs

48 0 0

《PySpark大数据分析实战》-02.了解Hadoop

华章出版社

热门文章

最新文章

利用Hive与Hadoop构建大数据仓库：从零到一

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

大数据处理架构Hadoop

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

【Hadoop】HDFS 读写流程

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

【Hadoop Yarn】Yarn 工作机制

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

使用Flink实时发现最热Github项目

通过FastMR自动拉起大数据集群并运行TPCDS任务

搭建Hadoop环境

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）