备案控制台

开发者社区

开发者社区华章出版社文章正文

《Spark与Hadoop大数据分析》——2.3　为何把 Hadoop 和 Spark 结合使用

2017-09-01 1217

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章，第2.3节，作者 [美]文卡特·安卡姆（Venkat Ankam），译吴今朝，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3　为何把 Hadoop 和 Spark 结合使用

Apache Spark 与 Hadoop 结合使用时表现更好。为了理解这一点，让我们来看看 Hadoop 和 Spark 的特性。

2.3.1　Hadoop 的特性

2.3.2　Spark 的特性

当这两个框架结合起来的时候，我们就得到了具有内存级性能的企业级应用的威力，如图2-11 所示。

关于 Spark 的常见问题

以下是从业者对 Spark 提出的常见问题：

图2-12显示了完全缓存和分散到磁盘两种情况之间的性能差异：

文章标签：

分布式计算

Spark

Apache

Hadoop

关键词：

hadoop spark

云原生大数据计算服务 MaxCompute spark

云原生大数据计算服务 MaxCompute hadoop

apache spark Hadoop

大数据hadoop

华章计算机

目录

相关文章

桃李春风一杯酒

|

11天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

28 1 1

jerrywangsap

|

2月前

|

分布式计算大数据 Java

Spark 大数据实战：基于 RDD 的大数据处理分析

Spark 大数据实战：基于 RDD 的大数据处理分析

jerrywangsap

120 0 0

桃李春风一杯酒

|

3月前

|

分布式计算 Hadoop 大数据

什么是 Hadoop 和 Spark？在 Python 中如何使用它们进行大数据处理？

【1月更文挑战第11天】

桃李春风一杯酒

80 0 0

晓之以理的喵~~

|

3月前

|

分布式计算监控大数据

Spark RDD分区和数据分布：优化大数据处理

Spark RDD分区和数据分布：优化大数据处理

晓之以理的喵~~

148 0 0

晓之以理的喵~~

|

3月前

|

SQL 分布式计算 Hadoop

Spark与Hadoop的关系和区别

Spark与Hadoop的关系和区别

晓之以理的喵~~

169 0 0

极客李华

|

3月前

|

分布式计算 Hadoop 数据处理

Spark与Hadoop的区别是什么？请举例说明。

Spark与Hadoop的区别是什么？请举例说明。

极客李华

50 0 0

cuicuicuic

|

2月前

|

分布式计算 DataWorks IDE

MaxCompute数据问题之忽略脏数据如何解决

MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构；本合集将提供MaxCompute数据的管理和优化指南，以及数据操作中的常见问题和解决策略。

cuicuicuic

47 0 0

cuicuicuic

|

2月前

|

SQL 存储分布式计算

MaxCompute问题之下载数据如何解决

MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构；本合集将提供MaxCompute数据的管理和优化指南，以及数据操作中的常见问题和解决策略。

cuicuicuic

38 0 0

cuicuicuic

|

2月前

|

分布式计算关系型数据库 MySQL

MaxCompute问题之数据归属分区如何解决

MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构；本合集将提供MaxCompute数据的管理和优化指南，以及数据操作中的常见问题和解决策略。

cuicuicuic

35 0 0

cuicuicuic

|

2月前

|

分布式计算 DataWorks BI

MaxCompute数据问题之运行报错如何解决

MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构；本合集将提供MaxCompute数据的管理和优化指南，以及数据操作中的常见问题和解决策略。

cuicuicuic

38 1 1

华章出版社

热门文章

最新文章

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

【Hadoop】HDFS 读写流程

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

【Flink】Flink跟Spark Streaming的区别？

【Hadoop Yarn】Hadoop Yarn 基于优先级的调度算法

【Hadoop Yarn】Yarn 工作机制

大数据中的人为数据

数据之势丨从“看数”到“用数”，百年制造企业用大数据实现“降本增效”

大数据技术与Python：结合Spark和Hadoop进行分布式计算

大数据处理架构Hadoop

大数据项目管理：从需求分析到成果交付的全流程指南

Azure Databricks实战：在云上轻松进行大数据分析与AI开发

大数据定义详解

利用Hive与Hadoop构建大数据仓库：从零到一

数字太大了，计算加法、减法会报错，结果不正确？怎么办？用JavaScript实现大数据（超过20位的数字）相加减运算。

【Flume】Flume在大数据分析领域的应用

相关课程

更多

Python 数据分析库 Pandas 快速入门

深入理解数据分析

大数据Hadoop快速入门

场景实践-通过阿里云数据分析工具实现共享单车骑行分析

Hadoop企业优化及扩展案例

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

倚天大数据电商数据分析快速实践

AnalyticDB MySQL游戏行业数据分析实践

Github实时数据分析与可视化

PolarDB MySQL HTAP：实时数据分析加速

如何将 PolarDB-X 与大数据等系统互通

通过FastMR自动拉起大数据集群并运行TPCDS任务

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）